Dei nuovi test rivelano che ChatGPT-5 allucina meno dei modelli precedenti, ma non è il più preciso in assoluto.
ChatGPT-5 supera i modelli precedenti di OpenAI nei test di precisione
Secondo un’analisi condotta da Vectara, piattaforma specializzata in valutazioni AI, il nuovo ChatGPT-5 ha fatto registrare un tasso di allucinazioni del 1,4%, superando i risultati di GPT-4 (1,8%) e avvicinandosi molto al punteggio di GPT-4o (1,49%). Nel contesto dell’intelligenza artificiale, il termine “allucinazione” indica quando un modello genera informazioni inventate o non supportate da dati reali.
Questo miglioramento, seppur leggero rispetto al predecessore diretto GPT-4o, conferma quanto dichiarato da Sam Altman durante il lancio: ChatGPT-5 è stato progettato per essere più potente, veloce e affidabile, con un focus particolare sulla riduzione degli errori di contenuto. Tuttavia, il modello non è riuscito a battere il record interno di accuratezza detenuto da GPT-4.5 Preview, che aveva raggiunto appena l’1,2%, né il modello o3-mini High Reasoning, con un impressionante 0,795%.
OpenAI mantiene GPT-4o e raddoppia l’uso di GPT-5 per alcuni
La sfida con Grok e Gemini
Il confronto con altre piattaforme mette comunque ChatGPT-5 in una posizione di forza. Gemini-2.5 Pro registra un tasso di allucinazioni del 2,6%, mentre Grok 4 sale fino al 4,8%, risultando il modello meno affidabile tra quelli testati.
Il caso Grok è stato recentemente al centro di polemiche per via della modalità “Spicy” nel generatore video Grok Imagine, accusato di produrre deepfake sessualmente espliciti di personaggi famosi come Taylor Swift, anche in assenza di richieste esplicite. Questa controversia ha sollevato dubbi sull’efficacia dei filtri e delle misure di moderazione adottate.
ChatGPT-5: Reazione degli utenti e il ritorno di GPT-4o
Nonostante i progressi di ChatGPT-5, il lancio non è stato privo di critiche. Con l’arrivo del nuovo modello, OpenAI ha rimosso GPT-4, GPT-4o e le altre varianti dagli account Plus, scatenando proteste tra gli utenti affezionati alle vecchie versioni. Alcuni, sui forum come Reddit, hanno definito la perdita di GPT-4o come “perdere il proprio migliore amico da un giorno all’altro”.
In risposta, Sam Altman ha ammesso di aver sottovalutato l’attaccamento degli utenti a GPT-4o, annunciando che il modello tornerà disponibile per un periodo limitato, mentre OpenAI valuterà l’uso effettivo per decidere se mantenerlo più a lungo.
[fonte]