Tecnologia

Il Futuro dell'Intelligenza Artificiale: Musk Conferma, Dati Reali Esauriti e Sintetici in Vetta!

2025-01-09

Autore: Maria

Elon Musk ha fatto scandalo durante un recente dibattito in diretta su X con Mark Penn, presidente di Stagwell, dichiarando che il pool di dati reali per addestrare i modelli di intelligenza artificiale è praticamente esaurito. Questo sviluppo potrebbe rappresentare una svolta decisiva nell'evoluzione dell'AI.

"Abbiamo raggiunto il limite della conoscenza umana... nell'addestramento dell'AI. Questo è accaduto essenzialmente lo scorso anno," ha affermato Musk. Ma non è solo un’idea del magnate di Tesla: Ilya Sutskever, ex chief scientist di OpenAI, aveva già avvertito che l'industria sta vivendo il cosiddetto 'picco dei dati'. La scarsità di nuovi dati mette in discussione come i modelli vengono attualmente sviluppati.

Per affrontare questa crisi informativa, Musk suggerisce un’innovativa soluzione: i dati sintetici. "L'unico modo per integrare i dati reali è utilizzare dati sintetici, in cui l'AI crea i propri dati di addestramento," ha spiegato. Questo approccio non è affatto nuovo: aziende di fama mondiale come Microsoft, Meta e OpenAI stanno già sfruttando dati generati artificialmente per alimentare i loro modelli avanzati.

Si stima che entro il 2024 circa il 60% dei dati utilizzati nell'AI sarà generato sinteticamente, secondo Gartner. Un esempio pratico è il modello Phi-4 di Microsoft, lanciato open-source, che combina dati reali e sintetici. Anche il modello Gemma di Google e il Claude 3.5 Sonnet di Anthropic seguono questa linea. Meta, d'altro canto, ha raffinato i suoi modelli Llama con dati generati dall'AI stessa.

I vantaggi dell'uso di dati sintetici, in particolare dal punto di vista economico, sono significativi. La startup di AI Writer ha rivelato che il loro modello Palmyra X 004, quasi interamente centato su dati sintetici, ha avuto un costo di circa 700.000 dollari, rispetto ai 4,6 milioni stimati per un modello simile di OpenAI. Inoltre, i dati sintetici possono essere progettati per essere più equilibrati e completi, riducendo i rischi associati a set di dati reali potenzialmente sbilanciati.

Tuttavia, non tutto è roseo: ci sono rischi legati all’uso dei dati sintetici. Alcuni studi avvertono che si potrebbe verificare un 'collasso del modello', dove i modelli perdono creatività e diventano più soggetti a bias. Questo accade quando i modelli, generando dati basati su quelli di input, rischiano di perpetuare errori preesistenti. Se i dati originali contengono pregiudizi, è probabile che anche i dati generati dall'AI rispecchino tali problematiche, compromettendo così le prestazioni del modello.

Fortunatamente, molti esperti concordano sul fatto che aziende come Microsoft stiano facendo attenzione nell'addestrare i loro modelli, evitando l'uso di dati personali che potrebbero compromettere la privacy e l'integrità del sistema. La questione dei dati utilizzati per l'addestramento dei modelli rimane un argomento di dibattito acceso e gli sviluppi futuri potrebbero ridefinire le regole del gioco nell'AI.