Tecnologia

OpenAI Rilascia i Nuovi Modelli O3: Un Salto da Gigante nei Test Matematici!

2024-12-21

Autore: Chiara

Un momento epocale per il mondo dell'intelligenza artificiale! OpenAI, l'innovativa azienda dietro ChatGPT, ha appena lanciato i suoi nuovi modelli o3 e o3-mini, portando le capacità AI a un livello mai visto prima. Questa notizia arriva come un sorprendente "regalo finale" in occasione dell'evento "12 giorni di regali natalizi", accendendo ancora di più l'entusiasmo nella comunità tech.

I modelli o3 e o3-mini hanno già attirato l'attenzione degli esperti, promettendo di stabilire nuovi standard in vari settori, in particolare nella matematica avanzata e nella programmazione. Le valutazioni preliminari rivelano risultati straordinari: il modello o3 ha ottenuto un impressionante 96,7% nel test AIME 2024, una competizione matematica d'élite dove è riuscito a minimizzare gli errori a un solo misfatto. Un traguardo che mette in ombra anche le prestazioni di matematici professionisti!

Sam Altman, CEO di OpenAI, ha dichiarato entusiasta: "Vedere questo progresso ci fa credere che stiamo assistendo all'inizio di una nuova era per l'IA, dove questi modelli possono affrontare compiti sempre più complessi."

Ma non è tutto! Nel campo della programmazione, il modello o3 ha stabilito nuovi record, raggiungendo un punteggio di 2727 su Codeforces, superando il risultato ottenuto dallo stesso Chief Scientist di OpenAI. Questo dimostra non solo la comprensione profonda dei principi di programmazione, ma anche una notevole abilità nel problem-solving.

Un altro traguardo significativo è stato raggiunto nel test frontier math di EpochAI: o3 ha risolto il 25,2% delle sfide, un risultato impressionante considerando che nessun altro modello AI esistente è riuscito a superare il 2% in questo test estremamente rigoroso. Inoltre, nel benchmark SWE-Bench Verified, o3 ha superato il predecessore o1 di ben 22,8 punti percentuali, sottolineando un miglioramento sostanziale nelle capacità di programmazione e risoluzione dei problemi.

OpenAI ha deciso di adottare un approccio prudente nel rilascio di questi modelli, limitando inizialmente l'accesso solo ai ricercatori specializzati in sicurezza e protezione, per garantire che l'uso di tali potenti strumenti sia etico e responsabile.

Infine, il test ARC-AGI ha contribuito a confermare le abilità avanzate di o3, con un punteggio che ha più che triplicato quello del modello precedente, raggiungendo l'85% di accuratezza nella versione a bassa potenza di calcolo. Questo risultato, convalidato dal team dell'ARC Prize, rappresenta un passo fondamentale nello sviluppo delle capacità di ragionamento concettuale dell'intelligenza artificiale. Nelle prossime settimane, gli occhi del mondo rimarranno sintonizzati sul futuro di questi modelli rivoluzionari.