Technologie

Apertus im Test: Das revolutionäre mehrsprachige KI-Modell im Fokus!

2025-09-15

Autor: Luca

Einführung: Ein neuer Akteur im KI-Universum

In der Welt der Sprachmodelle ist Englisch oft die dominierende Sprache, während weniger gebräuchliche Sprachen häufig ignoriert werden. Doch das neu entwickelte KI-Modell Apertus aus der Schweiz könnte das ändern! Die Forschungsinstitute ETH Zürich, EPF Lausanne und das Swiss National Supercomputing Centre (CSCS) haben gemeinsam ein Modell erschaffen, das auch Schweizerdeutsch, Rätoromanisch und weitere rare Sprachen versteht und generiert.

Modell-Release und Informationen

Nach langer Ankündigung kamen im September gleich zwei Varianten von Apertus auf den Markt - eines mit 8 Milliarden und das andere mit 70 Milliarden Parametern. Das Modell ist unter der Apache-2.0-Lizenz auf Hugging Face verfügbar, jedoch mit dem Hinweis, dass die Institutionen nicht für etwaige Schäden haftbar gemacht werden können. Ein Novum: Apertus bietet Unterstützung für Sprachen, die bisher in ähnlichen Modellen nicht berücksichtigt wurden.

Technische Details: Architektur und Training

Die Architektur von Apertus umfasst eine Kontextlänge von bis zu 64.000 Token. Während das kleinere Modell mit 32 Attention Heads und gleich vielen Layern ausgestattet ist, verfügt das umfassendere Modell über 64 Attention Heads und 80 Layer. Beide Modelle benötigen die aktuelle Version der Transformers-Bibliothek für ihre Funktion.

Im Training setzte das Team auf innovative Ansätze, darunter den AdEMAMix-Optimierer, der sich vom traditionell verwendeten AdamW unterscheidet. Darüber hinaus kommt eine neue Verlustfunktion namens Goldfish Loss zum Einsatz, um zu verhindern, dass das Modell Informationen auswendig lernt und stattdessen einen kreativen Umgang mit den Daten entwickelt.

Erste Tests: Wie gut kann Apertus wirklich?

In einem ersten Test wurde das 70B-Modell auf sein Allgemeinwissen hin überprüft. Die Antwort auf die Frage nach dem Heise Verlag war weitgehend korrekt, jedoch offenbarte das Modell Schwächen bei trivialen Fragen, wie beispielsweise zur Anzahl der 'e' in "Erdbeere", wo es nur zwei statt der korrekten drei zählte.

Multilinguale Fähigkeiten unter der Lupe

Eine französische Anfrage wurde problemlos beantwortet, was darauf hinweist, dass das Modell seine mehrsprachige Kompetenz ernst nimmt. Aber auch bei Sprachen wie Friaulisch und Ladinisch zeigte Apertus seine Fähigkeiten, wenn auch mit teils merkwürdigen Wiederholungen. Bei Rätoromanisch hingegen stieß das Modell auf Schwierigkeiten, was auf unzureichende Trainingsdaten schließen lässt.

Fazit: Ein solider, aber verbesserungswürdiger Ansatz

Insgesamt bietet Apertus beeindruckende Ansätze für mehrsprachige KI-Anwendungen. Auch wenn es gegenwärtig nicht mit den Besten der Branche konkurrieren kann, zeigt das Modell vielversprechende Ansätze, die durch weitere Optimierungen und Training verbessert werden könnten. Transparenz bei den Trainingsdaten und ein offener Umgang mit den Ergebnissen machen diese Innovation spannend für zukünftige Entwicklungen im Bereich KI.