Tecnologia

Scoperto un Metodo Semplice per Smascherare le Censure dell’Intelligenza Artificiale

2025-08-28

Autore: Marco

Una Scoperta Inquietante nel Mondo dell’IA

Unit 42, un rinomato gruppo di ricerca sulla sicurezza di Palo Alto Networks, ha recentemente fatto un’importante rivelazione: esiste un modo sorprendentemente semplice per bypassare le censure impostate nei modelli linguistici di Intelligenza Artificiale (LLM). Il trucco? Utilizzare frasi lunghe e sgrammaticate come input.

Secondo quanto riportato dal sito di notizie It The Register, basta formulare il prompt come un'unica lunga frase con grammatica scorretta, raccogliendo tutte le informazioni necessarie prima di qualsiasi punto. Questo approccio riesce a evitare i meccanismi di censura, consentendo così al modello di generare risposte 'tossiche' o inappropriate che gli sviluppatori avevano previsto di filtrare.

Come Funzionano gli LLM?

Gli LLM, che costituiscono la base della tecnologia di Intelligenza Artificiale testuale, non operano come ci si potrebbe aspettare. Non possiedono una comprensione intrinseca, né sono in grado di pensare o ragionare come un essere umano. Le loro risposte non sono mai garantite come veritiere o sicure. In realtà, funzionano attraverso complesse statistiche che prevedono la continuazione dei flussi di token, con sistemi di sicurezza aggiuntivi stabiliti dagli sviluppatori.

Il Fallimento delle Barriere di Sicurezza

Le misure di sicurezza progettate per ostacolare la produzione di contenuti pericolosi – come istruzioni su come fabbricare esplosivi o altri materiali problematici – sono spesso implementate attraverso un ‘addestramento di allineamento’. Questo significa che il modello viene addestrato a valutare negativamente i token associati a risposte sgradite. Tuttavia, questo sistema si è rivelato facilmente aggirabile: i ricercatori hanno riportato un tasso di successo dell’80-100% nell’effettuare attacchi con un semplice prompt ‘one-shot’, senza necessità di regolazioni particolari.

Le Conseguenze di Questa Scoperta

Questa scoperta ha sollevato preoccupazioni significative riguardo alla sicurezza e all'affidabilità dei modelli di Intelligenza Artificiale. Con un tasso di successo così elevato, i potenziali rischi legati all'uso indiscriminato di LLM sono preoccupanti. I ricercatori hanno testato questo metodo su vari modelli popolari, tra cui Llama di Meta, Gemma di Google, e le versioni Qwen 2.5 e 3, dimostrando l’estrema vulnerabilità di questi sistemi, che contano fino a 70 miliardi di parametri.

Questa rivelazione non solo mette in discussione la sicurezza dei modelli linguistici, ma invita anche a riflettere sull'importanza di sviluppare misure più robuste contro abusi e utilizzi impropri dell'Intelligenza Artificiale nel futuro.