Große Sprachmodelle wie GPT-4 oder Llamas aktuelle Versionen gelten als leistungsstark, aber auch als ressourcenhungrig. Selbst komprimierte 8-Milliarden-Parameter-Modelle benötigen mehrere Gigabyte Arbeitsspeicher und setzen leistungsfähige Hardware voraus – ein erhebliches Hindernis für den Einsatz auf Smartphones, Robotern oder eingebetteten Systemen. Das Startup PrismML will dieses Problem mit einem fundamentalen Ansatz lösen: 1-Bit-Quantisierung.
Was steckt hinter 1-Bit-Gewichten?
Klassische neuronale Netze speichern ihre Gewichte als Gleitkommazahlen mit 16 oder 32 Bit Präzision. Quantisierung reduziert diese Darstellung auf weniger Bits, um Speicher und Rechenaufwand zu senken – üblicherweise auf 4 oder 8 Bit. Der 1-Bit-Ansatz geht deutlich weiter: Jedes Gewicht wird auf lediglich einen einzigen Bit reduziert, also auf die Werte -1, 0 oder +1. Das klingt nach einem massiven Informationsverlust, und tatsächlich war diese Technik lange Zeit nur theoretisch interessant. Microsoft-Forscher hatten mit dem BitNet-Ansatz erste Schritte in diese Richtung unternommen, doch kommerzielle Anwendbarkeit blieb bislang fraglich.
PrismML behauptet nun, mit ihrer Bonsai-Modellfamilie den ersten kommerziell nutzbaren 1-Bit-LLM entwickelt zu haben. Das Bonsai-8B-Modell mit acht Milliarden Parametern benötigt lediglich 1,15 GB Arbeitsspeicher – das entspricht einem 14-fach kleineren Footprint im Vergleich zu einem vollpräzisen 8B-Modell. Gleichzeitig soll es achtmal schneller laufen und fünfmal weniger Energie verbrauchen, während es auf gängigen Benchmarks mit führenden 8B-Modellen mithalten kann.
Bonsai 4B: Extremeffizienz für den Edge-Einsatz
Noch beeindruckender sind die Kennzahlen des kleineren Schwestermodells Bonsai 4B: Es kommt mit gerade einmal 0,57 GB RAM aus und erreicht auf einem Apple M4 Pro eine Inferenzgeschwindigkeit von 132 Tokens pro Sekunde. Das macht es zu einem ernsthaften Kandidaten für Anwendungen, bei denen Latenz und Energieverbrauch kritisch sind – etwa in der Robotik, bei autonomen Agenten oder in IoT-Geräten.
PrismML spricht von einer mehr als zehnfach höheren Intelligence Density gegenüber vollpräzisen Modellen – ein neues Konzept, das die Leistungsfähigkeit ins Verhältnis zum Ressourcenverbrauch setzt. Ob diese Metrik in der Praxis hält, was sie verspricht, werden unabhängige Evaluierungen zeigen müssen.
Einordnung: Ein wachsender Markt für On-Device-KI
Der Vorstoß von PrismML trifft einen Nerv in der Branche. Apple, Qualcomm und Google investieren massiv in Neural Processing Units (NPUs), um KI-Inferenz direkt auf dem Gerät zu ermöglichen. Modelle wie Apples On-Device-Modelle für Siri oder Googles Gemini Nano zeigen, wohin die Reise geht. Doch bislang sind die verfügbaren On-Device-Modelle in ihrer Leistungsfähigkeit stark beschränkt.
Wenn 1-Bit-Modelle tatsächlich mit größeren Cloud-Modellen konkurrieren können, würde das die KI-Architektur grundlegend verschieben: Weniger Abhängigkeit von Rechenzentren, geringere Latenz, besserer Datenschutz und drastisch niedrigere Betriebskosten. Für Entwickler von Edge-Anwendungen, Robotik-Systemen und mobilen Apps könnte Bonsai ein wichtiger Baustein werden – sofern die versprochene Benchmark-Parität in realen Anwendungsszenarien bestätigt wird.
Quellen: Hacker News