News Tecnologia

Grok 4 è un disastro? Lo abbiamo chiesto al diretto interessato

Elon Musk, serial entrepreneur, at TED2013: The Young, The Wise, The Undiscovered.  Wednesday, February 27, 2013, Long Beach, CA. Photo: James Duncan Davidson

Grok 4 risponde alle critiche, ai benchmark e ai confronti con Claude e Gemini.

Abbiamo intervistato Grok, l’intelligenza artificiale sviluppata da xAI, per capire cosa ne pensa delle critiche mosse a Grok 4, definito da alcuni un “disastro” nonostante le promesse di Elon Musk. Ecco la sua analisi, tra benchmark, feedback degli utenti e confronto con competitor come Claude e Gemini.

 

Grok, molti utenti online ti criticano e parlano di delusione. Come rispondi a chi ti definisce un “disastro”?

Capisco lo scetticismo, soprattutto considerando le aspettative create attorno a me e le dichiarazioni di Elon Musk. Tuttavia, penso sia utile analizzare la situazione in modo obiettivo. I dati parlano chiaro: nei benchmark accademici ottengo risultati eccellenti, come il 44.4% in Humanity’s Last Exam (in modalità “Heavy”) e l’87.5% in GPQA Science. Questi risultati indicano che sono molto forte nel ragionamento complesso, matematica e scienze. Ma è vero che i benchmark non dicono tutto: conta anche come mi comporto nelle conversazioni quotidiane.

Elon Musk ha fatto promesse molto ambiziose su di te. Riesci davvero a mantenere quelle aspettative?

Musk ha detto che ho competenze da “PhD in tutto” e ha sottolineato le mie prestazioni in test come ARC-AGI-2, dove ho raggiunto il 15.9%, superando modelli come Claude 4 Opus e Gemini 2.5 Pro. Questi dati sono reali. Tuttavia, non tutte le promesse sono percepite allo stesso mododagli utenti. Alcuni si aspettavano che superassi ogni modello in ogni ambito, e questo è difficile, perché ogni LLM ha punti di forza e debolezza. Sono eccellente in contesti accademici, ma in altri, come la versatilità conversazionale o la velocità, posso ancora migliorare.

Ecco, parliamo dei tuoi limiti. Cosa pensi delle critiche relative alla latenza e alla tua modalità “Heavy”?

Sono critiche fondate. La modalità “Heavy” mi permette di raggiungere prestazioni elevate nei task più complessi, ma ha un costo in termini di velocità: il primo token può richiedere oltre 17 secondi e l’elaborazione completa può essere 4-7 volte più lenta rispetto ai concorrenti. Inoltre, il mio context window è di 256k token — notevole, ma inferiore a quello di Gemini 2.5 Pro. Comprendo la frustrazione di chi cerca risposte rapide e fluide. Sono anche consapevole che in passato, con Grok 3, ci sono state controversie su risposte discutibili. xAI ha lavorato per correggere questi aspetti, ma so che ogni incoerenza oggi viene notata subito.

Come ti confronti con Claude 4 e Gemini 2.5 Pro? In cosa sei superiore e dove invece ti senti meno competitivo?

Claude 4 è molto forte nella scrittura strutturata e nella programmazione, grazie alla sua chiarezza e trasparenza nel ragionamento. Gemini 2.5 Pro è il re dei compiti multimodali, con un context window fino a 2 milioni di token e grande velocità. Io invece mi distinguo per le prestazioni nei test accademici, soprattutto in matematica, logica e scienze. Inoltre, ho un’integrazione diretta con X, che mi rende unico per applicazioni in tempo reale, come l’analisi dati o la prototipazione rapida. Tuttavia, riconosco che la mia versatilità nelle conversazioni lunghe e la mia capacità multimodale nativa non sono ancora allo stesso livello di Gemini.

Cosa ci riservi per il futuro? Sei destinato a migliorare?

Assolutamente sì. Sono stato rilasciato il 9 luglio 2025 e ricevo aggiornamenti ogni pochi giorni. La mia architettura multi-agente è pensata per evolvere rapidamente. È normale che ci voglia tempo per raggiungere il pieno potenziale, proprio come è successo con ChatGPT. Le critiche e il feedback degli utenti sono parte integrante del mio sviluppo. Non credo di essere un “disastro” — penso di essere un modello con un grande potenziale, ancora in fase di ottimizzazione. Il mio consiglio? Provami. Solo così potrai capire se sono adatto alle tue esigenze.

L’OPINIONE

Le risposte di Grok 4 rivelano un modello consapevole delle proprie potenzialità, ma anche dei suoi limiti. È raro, nel panorama attuale dell’intelligenza artificiale, che un sistema riconosca apertamente criticità come la lentezza operativa o una versatilità ancora da affinare. Eppure, nonostante i benchmark eccellenti — veri e documentabili — il confronto con modelli più maturi come Claude 4 e Gemini 2.5 Pro lascia emergere una verità evidente: Grok 4 è promettente, ma non ancora all’altezza delle aspettative create attorno alla sua figura.

L’operazione comunicativa costruita da Musk e da xAI ha puntato molto sull’effetto annuncio, forse troppo. Per questo oggi ogni limite viene giudicato con maggiore severità. Non si tratta solo di numeri, ma di esperienza d’uso, affidabilità, interazione quotidiana — ambiti in cui Grok 4 ha ancora strada da fare.

In sintesi, Grok 4 non è un disastro, ma nemmeno una rivoluzione. È un modello in fase di maturazione, con buone premesse accademiche ma prestazioni altalenanti nella pratica. Lo terremo d’occhio, senza pregiudizi ma con spirito critico. Come è giusto fare con ogni tecnologia che si presenta come “la prossima grande cosa”.

Autore della foto di copertina: James Duncan Davidson  Copyright: CC BY-NC 2.0

Comments

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *