
Mesterséges Intelligencia: Miért nem képes a gép leolvasni az analóg órát?
2025-04-08
Szerző: Máté
A mesterséges intelligencia világában a csodák és a kihívások találkoznak. Az Edinburghi Egyetem kutatócsoportja lenyűgöző felfedezéseket tett a legfejlettebb mesterséges intelligencia modellekről, amelyek képesek esszéket írni, bonyolult kódokat generálni és kvantumfizikai feladatokat megoldani. Ennek ellenére olyan egyszerű feladatokkal is megbirkózniuk kell, mint az analóg órák leolvasása vagy a naptár értelmezése – állapították meg egy friss tanulmányban.
A kutatás során a szakértők a népszerű multimodális nagy nyelvi modelleket vizsgálták, mint például a Google DeepMind Gemini 2.0, Anthropic Claude 3.5 Sonnet, Meta Llama 3.2-11B-Vision-Instruct, Alibaba Qwen2-VL7B-Instruct, ModelBest MiniCPM-V-2.6, GPT-4o és GPT-o1. Az analóg órák leolvasása különféle dizájnokkal és számformátumokkal készült képek alapján történt, de a gépek összességében mindössze 25%-os helyességgel tudták megmondani az időt.
A legnagyobb nehézséget a római számokat és stilizált mutatókat használó órák jelentették. Érdekes módon még az olyan egyszerűbb variációk esetén is, amikor eltávolították a másodperc mutatót, a gépek teljesítménye nem javult. A kutatók úgy vélik, hogy ezek a problémák az analóg órák mutatói és az óraszámlapok szögének értelmezéséből fakadnak.
A naptárakat is tesztelték, ahol tíz év képeit felhasználva kérdéseket tettek fel, mint például „Melyik nap van újév?” vagy „Mi a 153. nap az évben?”. A legjobban teljesítő mesterséges intelligencia rendszerek is több mint 20%-os hibával válaszoltak.
A Gemini 2.0 a legjobb teljesítményt nyújtotta az óratesztben, míg a GPT-o1 80%-os helyességgel tudta megválaszolni a naptárral kapcsolatos kérdéseket. Az analóg órák és naptárak megértéséhez szükséges térbeli tudatosság, kontextus és alap matematikai ismeretek kombinációja, amelyek továbbra is kihívást jelentenek a mesterséges intelligencia számára.
„Eredményeink világosan mutatják, hogy a mesterséges intelligencia jelenleg még nem képes az emberek számára alapvető készségek elsajátítására. Ez a probléma felszínre hozza a fejlődés szükségességét, ha sikeresen integrálni szeretnénk a MI rendszereket a mindennapi alkalmazásokba, például az ütemezés, az automatizálás és a segítő technológiák terén” – mondta Rohit Saxena, az Edinburghi Egyetem Informatikai Karának munkatársa. Aryo Gema, egy másik kutató hozzátette: „Ironikus, hogy a mai mesterséges intelligencia kutatások gyakran a bonyolult érvelési feladatokra összpontosítanak, miközben sok rendszerek még mindig küzdenek a legegyszerűbb, mindennapi feladatokkal.”
Ez a felfedezés nem csupán a tudományos közönséget izgatja, hanem felveti a kérdést, hogy vajon mikorra léphetünk át azokon a technikai korlátokon, amelyek a mesterséges intelligencia és a napi feladatok közötti szakadékot jelölik.