Quantization

Synthese

Quantization bezeichnet die Reduktion der numerischen Präzision von Modellgewichten – typischerweise von 32-bit oder 16-bit Floats auf 8-bit Integer oder weniger – um Speicherbedarf und Inferenzgeschwindigkeit zu verbessern. whisper.cpp nutzt dies konsequent: Whisper-Modelle werden in quantisierten Formaten (z. B. Q4, Q8) ausgeliefert, sodass sie effizient auf CPU-Hardware laufen, ohne GPU-Abhängigkeit.

Der Tradeoff ist Genauigkeitsverlust: Aggressivere Quantisierung (z. B. 4-bit) spart mehr Speicher, verschlechtert aber die Transkriptionsqualität messbar. whisper.cpp unterstützt daher mehrere Quantisierungsstufen, damit Nutzer je nach Hardware und Qualitätsanforderung abwägen können. Das Verfahren ist besonders relevant für Edge-Deployments, wo RAM und Rechenleistung begrenzt sind.

Unter-Konzepte

Eintraege

2026-04-23-whisper-cpp

Quartz 4

Explorer

Quantization

Quantization

Synthese

Unter-Konzepte

Eintraege

Graph View

Table of Contents

Backlinks