Technologie

Meta schummelt bei Benchmark von Llama 4 – Was steckt wirklich dahinter?

2025-04-08

Autor: Lara

Vor wenigen Tagen brachte Meta die neueste Version seiner KI, Llama 4, in zwei Varianten auf den Markt. In einem offiziellen Blogbeitrag betonte Meta, dass die offenen Modelle in gängigen Benchmarks mindestens ebenso gut oder sogar besser abschneiden als die geschlossenen Konkurrenzprodukte von OpenAI und Google. Doch neue Informationen deuten darauf hin, dass es bei diesen Rankings nicht ganz mit rechten Dingen zuging. Im Fokus steht das Abschneiden in der LM Arena.

In der LM Arena bewerten Benutzer die Leistungen von Chatbots, wobei sie Punkte in Form eines ELO-Scores vergeben. Laut Metas Veröffentlichung erzielte Llama 4 Maverick einen Score von 1417, was es besser macht als GPT-4o und leicht hinter Googles Gemini 2.5 Pro einreiht. Allerdings entdeckten aufmerksame Tester, dass das getestete Modell von Llama 4 Maverick nicht identisch ist mit der Version, die kürzlich von Meta zur Verfügung gestellt wurde.

Optimierte Variante für den Chat:

Das getestete Modell trug den Titel "Llama 4 Maverick optimized for conversationality". Dies wirft Fragen darüber auf, wie viel diese spezielle Anpassung die Ergebnisse beeinflusst. Allgemein gilt das Abschneiden in der Chatbot-Arena jedoch als wenig aussagekräftig, da die Bewertungen stark von den individuellen Meinungen der Tester abhängen.

Auf Nachfragen von heise online erklärte Meta, dass man mit verschiedenen Versionen experimentiere. Sie haben die angepasste Version als "Llama-4-Maverick-03-26-Experimental" gekennzeichnet, jedoch fehlt ein klarer Hinweis darauf, dass die Testergebnisse nicht unbedingt die des öffentlich verfügbaren Modells repräsentieren.

Vorwürfe und Kritik:

Ahmad Al-Dahle, Vice-Präsident für generative KI bei Meta, wies die Kritik zurück, dass das Unternehmen Llama 4 direkt anhand von Benchmarks trainiert habe. In einem Beitrag auf X betonte er, dass sie so etwas niemals tun würden. Dennoch existieren solche Vorwürfe schon länger und sind nicht nur Meta zuzuordnen. Beim Training großer KI-Modelle kommen häufig alle frei verfügbaren Daten aus verschiedensten Quellen zum Einsatz, darunter auch Informationen von gängigen Benchmarks.

So hat selbst Metas Chef für KI-Wissenschaft, Yann LeCun, die Qualität vieler Datenauswertungen kritisiert. Laut ihm belegen viele Ergebnisse von KI-Modellen nicht deren Intelligenz oder Schlussfolgerungsvermögen, sondern lediglich, was sie gelernt haben.

Das zusätzliche Interesse an Metas Veröffentlichungstermin ist ebenfalls bemerkenswert: Die Modelle wurden an einem Samstag veröffentlicht, was bei vielen für Verwunderung sorgte. Mark Zuckerberg erklärte dazu, dass sie „einfach fertig geworden“ seien. Es ist jedoch anzumerken, dass Meta in dieser Hinsicht nicht allein ist – auch OpenAI neigt dazu, neue Produkte an Wochenenden vorzustellen.