Unglaublich: Dieses Sprachmodell läuft auf einem 25 Jahre alten Pentium 2 mit Windows 98!
2024-12-30
Autor: Lukas
In einer Zeit, in der moderne Sprachmodelle eng mit leistungsstarker Hardware in Verbindung gebracht werden, haben Forscher von Exolabs eine bemerkenswerte Herausforderung angenommen. Sie haben ein Sprachmodell auf einem uralten Computer, ausgestattet mit einem Intel Pentium 2 und dem inzwischen obsoleten Betriebssystem Windows 98, zum Laufen gebracht. Ein unglaubliches Experiment, das zeigt, wie weit Technologie gekommen ist und wie klein und effizient moderne Sprachmodelle tatsächlich sein können.
Schon allein die Vorstellung, ein Modell wie Llama auf einem so alten System zu betreiben, klingt fast absurd. Aber das Team war entschlossen, diese Grenze zu überschreiten und einen typischen Computer der 90er Jahre wieder zum Leben zu erwecken. Der Computer, der für gerade einmal ein paar Euros auf eBay ersteigert wurde, bringt Erinnerungen an die Anfänge des Personal Computing zurück. Die Bedienung war ein Abenteuer für sich: Maus und Tastatur mussten die mittlerweile veraltete PS/2-Schnittstelle nutzen.
Die größte Hürde war somit nicht nur die Hardware selbst, sondern auch die Übertragung des Sprachmodells auf den alten Rechner. CD-RWs wurden nicht erkannt, und eine externe Festplatte scheiterte an der 2-GByte-Dateigrößenbeschränkung der FAT-32-Dateisystem. Doch das Team fand eine Lösung: Über das Ethernet-Kabel wurde eine Verbindung über FTP zu einem modernen M4-Macbook hergestellt und so gelang die Übertragung des Modells.
Die Herausfoderung hörte hier nicht auf. Um das Sprachmodell zu kompilieren, mussten die Entwickler auf Borland C++ 5.02 zurückgreifen, ein Compiler aus den 90er Jahren, der nur ältere C++-Versionen unterstützte. Kurze Programmierkünste waren gefragt, um den Code an die Limitationen des Pentium 2 anzupassen. Nach umfangreichen Modifikationen lief das Modell schließlich, doch die Leistung war alles andere als beeindruckend.
Die Berechnungen liefen extrem langsam: Ohne GPU-Unterstützung verarbeitet der Pentium 2 nur 0,0093 Tokens pro Sekunde bei komplexen Anfragen an das Modell Llama 3.2 mit 1 Milliarde Parametern. Dies führt zu der Erkenntnis, dass es vielleicht an der Zeit ist, über die Möglichkeiten von Sprachmodellen und deren Effizienz auf veralteter Hardware nachzudenken. Erfreulicherweise konnte das kleinere Modell Stories260K mit einer Geschwindigkeit von immerhin 39,31 Tokens pro Sekunde verarbeitet werden.
Dieses Experiment ist nicht nur ein faszinierendes Technikwunder, sondern wirft auch Fragen auf: Wie viel Rechenleistung benötigen wir wirklich? Und was bedeutet das für die zukünftige Entwicklung von KI-Anwendungen? Bleiben Sie dran, denn die Welt der Technik hat sicherlich noch viele überraschende Erkenntnisse für uns parat!