Quantization
Synthese
Quantization bezeichnet die Reduktion der numerischen Präzision von Modellgewichten – typischerweise von 32-bit oder 16-bit Floats auf 8-bit Integer oder weniger – um Speicherbedarf und Inferenzgeschwindigkeit zu verbessern. whisper.cpp nutzt dies konsequent: Whisper-Modelle werden in quantisierten Formaten (z. B. Q4, Q8) ausgeliefert, sodass sie effizient auf CPU-Hardware laufen, ohne GPU-Abhängigkeit.
Der Tradeoff ist Genauigkeitsverlust: Aggressivere Quantisierung (z. B. 4-bit) spart mehr Speicher, verschlechtert aber die Transkriptionsqualität messbar. whisper.cpp unterstützt daher mehrere Quantisierungsstufen, damit Nutzer je nach Hardware und Qualitätsanforderung abwägen können. Das Verfahren ist besonders relevant für Edge-Deployments, wo RAM und Rechenleistung begrenzt sind.