Live-Transkription im Härtetest: AWS vs. Google – wer liefert die beste WER?

Kurzfassung: In einem 6:30‑Minuten Live-Streaming-Test mit anspruchsvollem deutschen Fachvortrag erzielte AWS Transcribe die niedrigste Word Error Rate (WER) und zeigte die stabilste Latenz. GCPs Chirp2 lag knapp dahinter – mit Phrase Set leicht verbessert. Das GCP‑Long‑Modell erwies sich im Live‑Szenario mit 40‑Sekunden‑Grenze als ungeeignet (viele Deletionen/ausbleibende Rückmeldungen).

Word Error Rate (WER) nach Service und Model. Niedriger ist besser

Kernaussagen

Für deutschsprachige Live‑Transkription mit strenger Latenzbegrenzung war AWS Transcribe am zuverlässigsten (WER 11,70%).
GCP Chirp2 profitierte moderat von Phrase Sets (WER 12,45% → 11,95%).
GCP Long lieferte im Streaming-Setup wegen hoher/inkonsistenter Latenz massive Deletionen (WER 64–70%) und ist für Live ungeeignet.

Warum dich das interessieren sollte

Wenn du in Webinaren, Live‑Events oder Support‑Calls auf Echtzeit-Untertitel setzt, zählt nicht nur die Genauigkeit, sondern auch die Zuverlässigkeit im Zeitfenster. Diese Fallstudie zeigt, welche Dienste im Live‑Betrieb performen und wie du mit Phrase Sets/Vokabular nachhelfen kannst.

Setup in Kürze

Sprache: Deutsch
Input: ca. 6:30 Minuten kontinuierlicher Vortrag (Fachjargon, Zahlen, Eigennamen, Dialekte, Anglizismen)
Dienste:
- AWS Transcribe
- GCP Cloud Speech-to-Text: Chirp2
- GCP Cloud Speech-to-Text: Long
Jeweils mit und ohne Vokabular/Phrase Set (6 Durchläufe)
Live-Streaming-Szenario: max. 40 Sekunden Latenz; spätere Ergebnisse wurden verworfen
WER-Berechnung: (Substitutionen + Deletionen + Insertionen) / Gesamtwörter; Interpunktion normalisiert

Wichtige Randbedingung Ergebnisse, die später als 40 Sekunden eintrafen, galten als „verworfen“. Das benachteiligt Modelle mit langsamem/unkonstantem Finalisierungsverhalten – genau das trat beim GCP‑Long‑Modell auf.

Das Testtranskript (Anforderungen)

Der Vortrag „Die Zukunft der KI und ihre gesellschaftlichen Auswirkungen“ deckt gezielt Stolpersteine ab:

Komposita (z. B. Donaudampfschifffahrtsgesellschaftskapitän)
Zahlen/Statistiken (Geldbeträge, Prozent, Jahreszahlen, Telefonnummern, PLZ)
Fachterminologie (Medizin, Physik, Biochemie, IT)
Abkürzungen/Akronyme (NATO, UNESCO, BIP, DAX, EZB, ROI, DNA, RNA, IoT)
Eigennamen/Institutionen (z. B. UKE, Volkswagen AG)
Dialektale Ausdrücke (Schwäbisch, Bayerisch, Norddeutsch)
Zeit-/Datumsangaben und Kontaktdaten

Das Ziel war, ein realistisches, „hartes“ Live‑Szenario zu simulieren.

Ergebnisse

System	Word Error Rate	Accuracy	Errors	Correct	Subs	Del	Ins
Chirp	12.45 %	87.55%	99	717	59	19	21
Chirp + vocabulary	11.95 %	88.05%	95	715	54	26	15
AWS	11.70 %	88.30%	93	712	70	13	10
AWS + vocabulary	12.08 %	87.92%	96	711	71	13	12
GCP Long	70.06 %	29.94%	557	250	48	497	12
GCP long + vocabulary	64.78 %	35.22%	515	303	55	437	23

Subs: Ersetzte Wörter, Del: gelöschte Wörter, Ins: Eingefügte Wörter

Fehlerarten (Substitutions, Deletions, Insertions) nach Service und Model.

Interpretation

AWS Transcribe: niedrigste WER (11,70%), zugleich wenig Deletionen → im Live-Fenster zuverlässig.
GCP Chirp2: ähnlich gut, mit Phrase Set eine leichte Verbesserung. Etwas mehr Deletionen als AWS, aber weniger Insertions/teils weniger Substitutionen.
GCP Long: sehr hohe Deletionen (497 bzw. 437) → stark darauf hindeutend, dass Finalisierungen oft nicht im 40‑Sekunden‑Fenster ankamen. Mit Phrase Set minimal besser, aber weiterhin live problematisch.

Latency matters Die Latenz war bei GCP teils stark schwankend; AWS lief stabiler. Ohne konsistente Finalisierungen klettert die WER – nicht, weil die akustische Modellierung per se „schlecht“ ist, sondern weil Ergebnisse schlicht zu spät kommen.

Was bedeuten Phrase Sets/Vokabular in der Praxis?

GCP Chirp2 profitierte leicht von Phrase Sets (−0,5 Prozentpunkte WER), v. a. bei Eigennamen/Terminologie.
AWS zeigte mit Phrase Set hier keinen Vorteil (sogar minimal schlechter). Ursache kann ein Over‑Biasing sein, das zu Substitutionen/Insertionen führt.
GCP Long profitiert inhaltlich etwas, bleibt aber im Live-Modus wegen Latenz problematisch.

Pragmatischer Tipp

Nutze Phrase Sets selektiv und spezifisch (Eigennamen, Produktbegriffe, Akronyme).
Teste Gewichtungen; zu aggressive Boosts können Fehlzuordnungen erhöhen.
Aktualisiere Phrase Sets dynamisch vor Events (z. B. Speaker‑Namen, Agenda, Firmennamen).

Empfehlungen für deinen Live‑Setup

Wähle das Modell nach Modus, nicht nur nach „Genauigkeit auf dem Papier“

Live (strenge Latenz): AWS Transcribe oder GCP Chirp2 (mit vorsichtigem Phrase Set) sind praktikabel.
Offline/Batch: GCP Long kann interessant sein – aber nicht für enge Echtzeitfenster.

Plane für Latenz-Unsicherheiten

Setze Timeouts, aber logge Späterückläufer separat für Post‑Event‑Auswertungen.
Verwende Puffer/Segmentierung (z. B. 10–15‑Sekunden‑Chunks), um stabilere Finalisierungen zu fördern.

Optimiere Akustik und Normalisierung

Saubere, konstante Audiopegel; vermeide Raumhall.
Post‑Processing: Zahlen/Datums-/Telefonformatierung mit RegEx/Heuristiken korrigieren.
Spracherkennung mit Domain-Wissen ergänzen (z. B. Abkürzungen-Mapper).

Messe nicht nur WER

Trenne Fehlerarten: Hohe Deletion → Latenz-/Stabilitätsproblem, hohe Substitution → Akustik/Sprachmodell oder Over‑Biasing, hohe Insertion → zu aggressive Hypothesen.
Beobachte „Time‑to‑Final“ und Revisionshäufigkeit von Zwischenhypothesen.

Grenzen der Studie

Ein einziger Vortrag, wenn auch inhaltlich breit und anspruchsvoll.
Sechs nacheinander statt parallel; mögliche Lauf‑zu‑Lauf‑Varianz.
Keine quantitativen Latenz‑Metriken erhoben (nur qualitative Beobachtung).
Vendor‑Konfigurationen nicht bis ins Maximum getuned (bewusst praxisnah).

So holst du mehr aus eigenen Tests

Nutze mehrere Sprecher, Umgebungen und Längen.
Logge Time‑to‑Final, Stabilität von Zwischenhypothesen, Jitter.
Teste verschiedene Phrase‑Set‑Gewichtungen und Kanal-/Sample‑Rates.

Fazit

Für deutschsprachige Live‑Transkription mit engem Latenzfenster war in diesem Test AWS Transcribe die robusteste Wahl, knapp gefolgt von GCP Chirp2 (mit leichtem Boost durch Phrase Sets). Das GCP‑Long‑Modell lieferte im Streaming‑Betrieb zu viele Deletionen, vermutlich wegen verspäteter Finalisierungen.

Wenn du heute ein Live‑Event betexten willst, beginne mit AWS oder GCP Chirp2, halte Phrase Sets schlank und messbar, und überwache konsequent Latenz und Fehlerarten. So bekommst du verlässlichere Untertitel – und ein besseres Erlebnis für dein Publikum.