Technológia

Technológia: Megdöbbentő eredmények a mesterséges intelligencia és az emberi intelligencia összehasonlításában: 60% vs. 1%

2025-03-26

Szerző: Noémi

Alan Turing, a mesterséges intelligencia egyik úttörője, a második világháború alatt feltörte a németek titkosító gépét, az Enigmát. 1950-ben megalkotta a Turing-tesztet, amely a gépi intelligencia egyik alapvető mércéje lett. A teszt célja, hogy megállapítsa, képes-e egy gép úgy kommunikálni, hogy a felhasználó nem tudja eldönteni, hogy emberi vagy gépi forrásból származik az üzenet. A ChatGPT és hasonló rendszerek megjelenésével ez a határvonal egyre kevésbé egyértelművé vált, és egy sokkal mélyebb kérdés merült fel: mennyire intelligens valójában a gép az emberhez képest?

Mivel a Turing-teszt már nem elegendő az intelligencia mérésére, a neves MI-kutató, François Chollet, az Arc Prize Foundation társalapítója kidolgozott egy új tesztet, az ARC-AGI-2-t. Az új teszt eredményei azt mutatták, hogy az emberi intelligencia még mindig sokkal magasabb szintű a gépi intelligenciához képest.

Az ARC-AGI tesztek különböző vizuális rejtvényekből állnak, ahol a mesterséges intelligenciának mintákat kell azonosítania sokszínű négyzetekből, majd 'válaszként' meg kell produkálnia a helyes megoldást. A feladatok célja, hogy a mesterséges intelligenciát új, korábban nem látott problémák megoldására kényszerítsék.

Az eredmények alapján az olyan fejlett modellek, mint az OpenAI o1-pro és a DeepSeek R1, mindössze 1-1,3%-os eredményeket értek el. Az igazi erőforrást jelentő modellek, például a GPT-4.5, a Claude 3.7 Sonnet és a Gemini 2.0 Flash is körülbelül 1%-kal zárták le a tesztet – számolt be a TechCrunch.

A tesztet 400 önkéntes is teljesítette, így az emberi teljesítmény átlagosan 60%-ra rúgott, ami sokkal magasabb, mint a mesterséges intelligencia eredményei. Chollet az X-en kifejtette, hogy az ARC-AGI-2 sokkal valósághűbb képet ad a rendszerek intelligenciájáról, mint a korábbi verziók.

A teszt legnagyobb előnye, hogy megakadályozza az MI-t abban, hogy nyers erőre támaszkodva oldja meg a feladatokat. Az előző ARC-AGI-1 verzióval ellentétben, az ARC-AGI-2 visszaszorítja a puszta memorizálást, és arra kényszeríti a gépet, hogy a mintákat valós időben értelmezze.

„A képességek megszerzésének és alkalmazásának hatékonysága kulcsfontosságú elem. Az alapvető kérdés nem csak az, hogy a mesterséges intelligencia képes-e elsajátítani a szükséges készségeket, hanem az is, hogy ezt milyen költséggel tudja megtenni“ – tette hozzá a szervezet képviselője.

Az ARC-AGI-1 benchmark teljesítménye sokáig megugorhatatlannak tűnt, de az OpenAI bejelentette, hogy az o3 modellje 2024 decemberében 75,5% -os eredményt ért el, ami már az emberi teljesítmény szintje. Most kiderült, hogy ugyanez a rendszer az ARC-AGI-2 tesztjén csupán 4%-os eredményt tudott elérni. A számítási kapacitás költsége pedig feladatonként 200 dollár, ami körülbelül 74 ezer forintnak felel meg.

Az Arc Prize Foundation most világosan megfogalmazta az iparág számára a célkitűzést: el kell érniük a 85%-os eredményt a teszten, miközben a számítási költség nem haladhatja meg a feladatonként 0,42 dollárt (kb. 155 forint).