Elon Musk lancia Grok, la sua intelligenza artificiale 1

Elon Musk lancia Grok, la sua intelligenza artificiale

Ebbene si, il vulcanico Elon Musk ha lanciato la sua intelligenza artificiale. Leggiamo insieme il suo comunicato stampa tradotto in italiano.

Novembre 4, 2023

Grok è un’IA modellata sulla Guida galattica per autostoppisti, quindi destinata a rispondere a quasi tutto e, molto più difficile, anche a suggerire quali domande porre!

Grok è progettato per rispondere alle domande con un po’ di arguzia e ha una vena ribelle, quindi per favore non usarlo se odi l’umorismo!

Un vantaggio unico e fondamentale di Grok è che ha una conoscenza in tempo reale del mondo tramite la piattaforma X. Risponderà anche a domande piccanti che vengono rifiutate dalla maggior parte degli altri sistemi di intelligenza artificiale.

Grok è ancora un prodotto beta molto precoce – il meglio che potremmo fare con 2 mesi di allenamento – quindi aspettati che migliori rapidamente ogni settimana che passa con il tuo aiuto.

Grazie,
il team di xAI

Perché stiamo costruendo Grok

Noi di xAI vogliamo creare strumenti di intelligenza artificiale che assistano l’umanità nella sua ricerca di comprensione e conoscenza.

Con la creazione e il miglioramento di Grok, miriamo a:

  • Raccogliere feedback e assicurarsi di costruire strumenti di intelligenza artificiale che diano beneficio di tutta l’umanità. Crediamo che sia importante progettare strumenti di intelligenza artificiale che siano utili a persone di ogni provenienza e opinione politica. Vogliamo anche potenziare i nostri utenti con i nostri strumenti di intelligenza artificiale,naturalmente sottostando alla legge. Il nostro obiettivo con Grok è quello di esplorare e dimostrare questo approccio in pubblico.
  • Potenziare la ricerca e l’innovazione: vogliamo che Grok funga da potente assistente di ricerca per chiunque, aiutandolo ad accedere rapidamente alle informazioni pertinenti, elaborare i dati e proporre nuove idee.

Il nostro obiettivo finale è che i nostri strumenti di intelligenza artificiale aiutino nella ricerca della comprensione.

Il viaggio verso Grok-1

Il motore che alimenta Grok è Grok-1, il nostro LLM, che abbiamo sviluppato negli ultimi quattro mesi. Grok-1 ha attraversato molte iterazioni in questo arco di tempo.

Dopo aver annunciato xAI, abbiamo addestrato un prototipo di LLM (Grok-0) con 33 miliardi di parametri. Questo primo modello si avvicina alle funzionalità di LLaMA 2 (70B) sui benchmark LM standard, ma utilizza solo la metà delle sue risorse di addestramento. Negli ultimi due mesi, abbiamo apportato miglioramenti significativi nelle capacità di ragionamento e codifica che hanno portato a Grok-1, un modello linguistico all’avanguardia che è significativamente più potente, raggiungendo il 63,2% nell’attività di codifica HumanEval e il 73% nell’MMLU.

Per comprendere i miglioramenti delle capacità che abbiamo apportato con Grok-1, abbiamo condotto una serie di valutazioni utilizzando alcuni benchmark standard di apprendimento automatico progettati per misurare le capacità matematiche e di ragionamento.

GSM8k: Problemi di di matematica per le scuole medie, (Cobbe et al. 2021), utilizzando il prompt della catena di pensiero.

MMLU: Domande multidisciplinari a scelta multipla (Hendrycks et al. 2021), che hanno fornito esempi contestuali.

HumanEval: attività di completamento del codice Python, (Chen et al. 2021), zero-shot valutato per pass@1.

MATEMATICA: problemi di matematica delle scuole medie e superiori scritti in LaTeX, (Hendrycks et al. 2021), richiesti con un prompt fisso a 4 colpi.

BenchmarkGrok-0 (33B)LLaMa 2 70BFlessione-1GPT-3.5Grok-1Palmo 2Claude 2GPT-4
GSM8k56.8%
8-colpi
56.8%
8-colpi
62.9%
8-colpi
57.1%
8-colpi
62.9%
8-colpi
80.7%
8-colpi
88.0%
8-colpi
92.0%
8-colpi
MMLU65.7%
5-colpi
68.9%
5-colpi
72.7%
5-colpi
70.0%
5-colpi
73.0%
5-colpi
78.0%
5-colpi
75,0%
5 colpi + CoT
86.4%
5-colpi
Valutazione umana39.7%
0-colpi
29.9%
0-colpi
35.4%
0-colpi
48.1%
0-colpi
63.2%
0-colpi
70%
0-colpo
67%
0-colpo
MATEMATICA15.7%
4-colpi
13.5%
4-colpi
16.0%
4-colpi
23.5%
4-colpi
23.9%
4-colpi
34.6%
4-colpi
42.5%
4-colpi

In questi benchmark, Grok-1 ha mostrato ottimi risultati, superando tutti gli altri modelli della sua classe di calcolo, tra cui ChatGPT-3.5 e Inflection-1. È superato solo da modelli che sono stati addestrati con una quantità significativamente maggiore di dati in addestramento e risorse di calcolo come GPT-4. Questo dimostra i rapidi progressi che stiamo facendo in xAI nell’addestramento degli LLM con un’efficienza eccezionale.

Poiché questi benchmark possono essere trovati sul web e non possiamo escludere che i nostri modelli siano stati inavvertitamente addestrati su di essi, abbiamo valutato a mano il nostro modello (e anche Claude-2 e GPT-4) sulle finali nazionali ungheresi di matematica del 2023, che sono state pubblicate alla fine di maggio, dopo aver raccolto il nostro set di dati. Grok ha superato l’esame con una C (59%), mentre Claude-2 ha ottenuto lo stesso voto (55%) e GPT-4 ha ottenuto una B con il 68%. Tutti i modelli sono stati valutati alla temperatura 0,1 e allo stesso prompt. Va notato che non abbiamo fatto alcuno sforzo per sintonizzarci per questa valutazione. Questo esperimento è servito come test “reale” su un set di dati per il quale il nostro modello non è mai stato messo a punto in modo esplicito.

Valutazione graduata dall’uomoGrok-0GPT-3.5Claude 2Grok-1GPT-4
Esame nazionale ungherese di matematica per le scuole superiori (maggio 2023)37%
1-colpo
41%
1-colpo
55%
1-colpo
59%
1-colpo
68%
1-colpo

Forniamo un riepilogo dei dettagli tecnici importanti di Grok-1 nella scheda del modello.

Engineering presso xAI

In fatto di ricerca sul deep learning, un’infrastruttura affidabile deve essere costruita con la stessa cura dei set di dati e degli algoritmi di apprendimento. Per creare Grok, abbiamo creato uno stack di addestramento personalizzato basato su Kubernetes, Rust e JAX.

L’addestramento LLM funziona come un treno merci che sfreccia in avanti; Se un vagone deraglia, l’intero treno viene trascinato fuori dai binari, rendendo difficile rimettersi in piedi. Ci sono una miriade di modi in cui le GPU falliscono: difetti di fabbricazione, connessioni allentate, configurazione errata, chip di memoria degradati, occasionali inversioni casuali di bit e altro ancora. Durante l’addestramento, sincronizziamo i calcoli su decine di migliaia di GPU per mesi e mesi e tutte queste modalità di errore diventano frequenti a causa della scalabilità. Per superare queste sfide, impieghiamo una serie di sistemi distribuiti personalizzati che garantiscono che ogni tipo di guasto sia immediatamente identificato e gestito automaticamente. In xAI, abbiamo fatto della massimizzazione dell’elaborazione utile per watt l’obiettivo principale dei nostri sforzi. Negli ultimi mesi, la nostra infrastruttura ci ha permesso di ridurre al minimo i tempi di inattività e di mantenere un elevato Model Flop Utilization (MFU) anche in presenza di hardware inaffidabile.

Rust ha dimostrato di essere la scelta ideale per la creazione di infrastrutture scalabili, affidabili e manutenibili. Offre prestazioni elevate, un ricco ecosistema e previene la maggior parte dei bug che si trovano tipicamente in un sistema distribuito. Date le piccole dimensioni del nostro team, l’affidabilità dell’infrastruttura è fondamentale, altrimenti la manutenzione ostacola l’innovazione. Rust ci dà la certezza che qualsiasi modifica o refactoring del codice ed è probabile che produca programmi funzionanti che funzioneranno per mesi con una supervisione minima.

Ora ci stiamo preparando per il nostro prossimo salto nelle capacità del modello, che richiederà il coordinamento affidabile delle esecuzioni di addestramento su decine di migliaia di acceleratori, l’esecuzione di pipeline di dati su scala Internet e la creazione di nuovi tipi di funzionalità e strumenti in Grok. Se ti sembra eccitante, fai domanda per entrare a far parte del team qui.

La ricerca in xAI

Diamo a Grok l’accesso a strumenti di ricerca e informazioni in tempo reale, ma come con tutti gli LLM addestrati sulla previsione del token successivo, il nostro modello può ancora generare informazioni false o contraddittorie. Crediamo che il raggiungimento di un ragionamento affidabile sia la direzione di ricerca più importante per affrontare i limiti dei sistemi attuali. Qui, vorremmo evidenziare alcune promettenti direzioni di ricerca di cui siamo più entusiasti in xAI:

  • Supervisione scalabile con l’assistenza degli strumenti. Il feedback umano è essenziale. Tuttavia, fornire un feedback coerente e accurato può essere difficile, soprattutto quando si ha a che fare con codice lungo o passaggi di ragionamento complessi. L’intelligenza artificiale può aiutare con una supervisione scalabile cercando riferimenti da diverse fonti, verificando i passaggi intermedi con strumenti esterni e cercando feedback umano quando necessario. Il nostro obiettivo è quello di utilizzare nel modo più efficace il tempo dei nostri tutor AI con l’aiuto dei nostri modelli.
  • Integrazione con la verifica formale per la sicurezza, l’affidabilità e la messa a terra. Per creare sistemi di intelligenza artificiale in grado di ragionare profondamente sul mondo reale, abbiamo in programma di sviluppare capacità di ragionamento in situazioni meno ambigue e più verificabili. Questo ci permette di valutare i nostri sistemi senza feedback umano o interazione con il mondo reale. Uno dei principali obiettivi immediati di questo approccio è quello di fornire garanzie formali per la correttezza del codice, in particolare per quanto riguarda gli aspetti formalmente verificabili della sicurezza dell’IA.
  • Comprensione e recupero di un contesto a lungo termine. I modelli di addestramento per scoprire in modo efficiente la conoscenza utile in un particolare contesto sono al centro della produzione di sistemi veramente intelligenti. Stiamo lavorando su metodi in grado di scoprire e recuperare le informazioni ogni volta che sono necessarie.
  • Robustezza “contraddittoria”. Gli esempi contraddittori dimostrano che gli ottimizzatori possono facilmente sfruttare le vulnerabilità nei sistemi di intelligenza artificiale, sia durante l’addestramento che durante il periodo di servizio, causando errori madornali. Queste vulnerabilità sono punti deboli di lunga data dei modelli di deep learning. Siamo particolarmente interessati a migliorare la robustezza degli LLM, dei modelli di ricompensa e dei sistemi di monitoraggio.
  • Capacità multimodali. Attualmente, Grok non ha altri sensi, come la vista e l’udito. Per assistere meglio gli utenti, doteremo Grok di questi diversi sensi che possono consentire applicazioni più ampie, comprese le interazioni e l’assistenza in tempo reale.

Riteniamo che l’IA abbia un immenso potenziale per apportare un significativo valore scientifico ed economico alla società, quindi lavoreremo per sviluppare salvaguardie affidabili contro forme catastrofiche di uso dannoso. Crediamo nel fare del nostro meglio per garantire che l’IA rimanga una forza positiva.

Se condividi il nostro ottimismo e vuoi contribuire alla nostra missione, candidati per entrare a far parte del team qui.

Accesso anticipato a Grok

Stiamo offrendo a un numero limitato di utenti negli Stati Uniti di provare il nostro prototipo Grok e fornire un prezioso feedback che ci aiuterà a migliorare le sue capacità prima di un rilascio più ampio. Puoi iscriverti alla lista d’attesa di Grok qui. Questa versione rappresenta solo il primo passo per xAI. Guardando al futuro, abbiamo una tabella di marcia entusiasmante e implementeremo nuove funzionalità e funzionalità nei prossimi mesi.

Translate »