Wer lokale KI-Sprachmodelle betreiben möchte, steht vor einer oft unterschätzten Herausforderung: Die schiere Anzahl verfügbarer Modelle auf Plattformen wie HuggingFace ist längst unüberschaubar geworden. Hunderte von Varianten, verschiedene Quantisierungsstufen, unterschiedliche Architekturansätze – und die entscheidende Frage lautet stets: Was läuft überhaupt sinnvoll auf meiner Hardware? Genau hier setzt das Open-Source-Projekt whichllm an.
Intelligente Hardware-Erkennung statt Rätselraten
Das Kommandozeilentool erkennt automatisch die verbaute GPU, CPU und den verfügbaren Arbeitsspeicher eines Systems und gleicht diese Daten mit aktuellen Benchmark-Ergebnissen ab. Das Resultat ist eine priorisierte Rangliste der Modelle, die sowohl in das System passen als auch die beste reale Leistung liefern. Ein konkretes Beispiel verdeutlicht das Prinzip: Bei einer NVIDIA RTX 4090 empfiehlt whichllm als Erstplatzierung das Modell Qwen3.6-27B mit 27,8 Milliarden Parametern in der Q5_K_M-Quantisierung – mit einem Benchmark-Score von 92,8 und einer Inferenzgeschwindigkeit von 27 Tokens pro Sekunde.
Interessant ist dabei, dass das größere Qwen3-32B-Modell trotz mehr Parametern nur auf Platz zwei landet. Der Grund: whichllm bewertet nicht nach schlichter Modellgröße, sondern nach tatsächlich gemessener Benchmark-Qualität. Ein reines „Was passt auf meine VRAM?"-Tool würde das 32B-Modell bevorzugen – whichllm liefert hingegen die Empfehlung, die in der Praxis bessere Ergebnisse erzielt. Diese Unterscheidung ist der eigentliche Mehrwert des Projekts.
MoE-Modelle und Geschwindigkeit als Faktor
Besonders aufschlussreich ist der Umgang des Tools mit sogenannten Mixture-of-Experts-Modellen (MoE). Das Qwen3-30B-A3B landet trotz beeindruckender 102 Tokens pro Sekunde – also fast viermal schneller als das erstplatzierte Modell – nur auf Rang drei. Die höhere Inferenzgeschwindigkeit wird zwar berücksichtigt, kann aber den niedrigeren Qualitätsscore nicht vollständig ausgleichen. Damit zeigt whichllm, dass Speed allein kein ausreichendes Kriterium für die Modellwahl ist.
Kontext: Lokale KI-Modelle als wachsender Markt
Der Trend zum lokalen Betrieb von Sprachmodellen hat in den letzten Monaten erheblich Fahrt aufgenommen. Datenschutzbedenken gegenüber Cloud-Diensten, steigende API-Kosten und die zunehmende Leistungsfähigkeit von Consumer-Hardware – insbesondere GPUs der RTX-4000- und 5000-Serie – machen das sogenannte Local LLM Inference für immer mehr Nutzer und Entwickler attraktiv. Tools wie Ollama oder LM Studio haben den Einstieg bereits vereinfacht, doch die Modellauswahl blieb bisher weitgehend manueller Recherche überlassen.
whichllm schließt diese Lücke, indem es den Auswahlprozess automatisiert und auf echte Benchmark-Daten stützt. Die Modell-Rankings sind dabei nicht statisch, sondern spiegeln aktuelle Daten von HuggingFace wider – ein wichtiger Vorteil in einem Bereich, in dem nahezu wöchentlich neue Modelle erscheinen. Für tech-affine Nutzer, die das Beste aus ihrer Hardware herausholen wollen, ohne stundenlang Foren und Leaderboards zu durchforsten, ist das Tool eine sinnvolle Ergänzung im lokalen KI-Ökosystem.
Quellen: Hacker News