Naukowcy przygotowują "Ostatni egzamin ludzkości". Nowy, trudny test dla sztucznej inteligencji
2024-09-23
Autor: Andrzej
Swiat entuzjastów generatywnej sztucznej inteligencji oraz badaczy w dziedzinie AI i uczenia maszynowego od lat stosuje różnorodne testy, znane jako benchmarki, do oceny zdolności AI w zakresie przetwarzania informacji i generowania odpowiedzi na pytania z wielu dziedzin. W ostatnich latach pojawiło się wiele testów, ale z wielu powodów obecne standardy zaczynają być niewystarczające. Testy te są często wykorzystywane przez firmy podczas publikacji nowych modeli sztucznej inteligencji, co pozwala im na wizualizację potencjału ich systemów.
W 2021 roku, Hendrycks, współautor badań, wprowadził testy MMLU (Massive Multitask Language Understanding - "Wielozadaniowe masowe rozumienie języka"), które zdobijają uznanie jako standardowy benchmark dla dużych modeli językowych AI. Poziom trudności pytań w tych testach był na tyle wysoki, że wiele modeli AI nie radziło sobie z odpowiadaniem na zadawane im pytania, co ujawniało ich ograniczenia i braki w zrozumieniu.
Jednak reorganizacja w erze AI nadchodzi! Ostatnio model OpenAI osiągnął wyniki bliskie 100% w różnych testach, w tym w MMLU, co jeszcze bardziej podkreśla potrzebę ustawienia poprzeczki na nowym poziomie. W związku z tym Center for AI Safety oraz firma Scale AI rozpoczynają prace nad ambitnym projektem - "Ostatnim egzaminem ludzkości". Ten nowy benchmark ma na celu stworzenie najtrudniejszego testu sztucznej inteligencji na świecie!
To, co czyni ten projekt wyjątkowym, to zamiar zaangażowania naukowców i ekspertów z całego świata przy tworzeniu pytań do egzaminu. Ostatecznie plan zakłada, że test będzie się składał z tysięcy pytań, które będą weryfikowane przez organizację i dostosowane do odpowiednich kryteriów. Pytania mają być zarówno wyzwaniem dla AI, jak i oryginalne oraz bezstronne.
Warto również zauważyć, że autorzy 50 najlepszych pytań otrzymają wynagrodzenie wysokości 5 tys. dol. za każde z nich, natomiast pięciu najlepszych twórców pytania zostanie uhonorowanych kwotą 500 tys. dol. każdy. Uczestnicy będą musieli również przestrzegać rygorystycznych zasad, aby pytania nie dotyczyły tworzenia broni, aby zachować etyczne standardy zapewnienia bezpieczeństwa.
Czy ten przełomowy egzamin rzeczywiście podniesie poprzeczkę dla sztucznej inteligencji? Eksperci twierdzą, że ten krok może pomóc w lepszym zrozumieniu i kontrolowaniu rozwoju AI oraz jej ograniczeń w kontekście ludzkiej wiedzy i rozumowania. Co przyniesie przyszłość? Świat czeka na odpowiedzi!