Model Quantization

Synthese

Model Quantization

Quantisierung reduziert die numerische Präzision von Modellgewichten – typischerweise von FP32 oder FP16 auf INT8, INT4 oder noch niedrigere Bitbreiten. Das Ziel ist, Speicherbedarf und Inferenzgeschwindigkeit drastisch zu verbessern, auf Kosten eines kontrollierten Genauigkeitsverlusts.

whisper.cpp demonstriert diesen Ansatz konkret: Das Projekt unterstützt mehrere Quantisierungsstufen (z. B. Q4_0, Q5_1, Q8_0) und ermöglicht so die Ausführung von Whisper-Modellen direkt auf Consumer-Hardware ohne GPU. Die Gewichte werden dabei in komprimierter Form gespeichert und erst zur Laufzeit für Berechnungen skaliert. Der Qualitätsverlust bei Transkription bleibt bei moderaten Stufen wie Q5 oder Q8 meist gering und akzeptabel.

Praktisch bedeutet das: Ein Modell, das unkomprimiert mehrere Gigabyte benötigt, lässt sich auf einen Bruchteil reduzieren und läuft dennoch auf einem Laptop oder Mobilgerät – was Quantisierung zu einem zentralen Werkzeug für Edge-Deployment und lokale Inferenz macht.

Unter-Konzepte

Eintraege