Live-Transkription im Härtetest: AWS vs. Google – wer liefert die beste WER?

Fallstudie: Genauigkeit (WER) und Latenz in deutschsprachiger Live‑Transkription – AWS Transcribe, Google Chirp2 und GCP Long im Vergleich

Live-Transkription im Härtetest: AWS vs. Google – wer liefert die beste WER?

Kurzfassung: In einem 6:30‑Minuten Live-Streaming-Test mit anspruchsvollem deutschen Fachvortrag erzielte AWS Transcribe die niedrigste Word Error Rate (WER) und zeigte die stabilste Latenz. GCPs Chirp2 lag knapp dahinter – mit Phrase Set leicht verbessert. Das GCP‑Long‑Modell erwies sich im Live‑Szenario mit 40‑Sekunden‑Grenze als ungeeignet (viele Deletionen/ausbleibende Rückmeldungen).

Word Error Rate (WER) nach Service und Model. Niedriger ist besser
Word Error Rate (WER) nach Service und Model. Niedriger ist besser

Kernaussagen

  • Für deutschsprachige Live‑Transkription mit strenger Latenzbegrenzung war AWS Transcribe am zuverlässigsten (WER 11,70%).
  • GCP Chirp2 profitierte moderat von Phrase Sets (WER 12,45% → 11,95%).
  • GCP Long lieferte im Streaming-Setup wegen hoher/inkonsistenter Latenz massive Deletionen (WER 64–70%) und ist für Live ungeeignet.

Warum dich das interessieren sollte

Wenn du in Webinaren, Live‑Events oder Support‑Calls auf Echtzeit-Untertitel setzt, zählt nicht nur die Genauigkeit, sondern auch die Zuverlässigkeit im Zeitfenster. Diese Fallstudie zeigt, welche Dienste im Live‑Betrieb performen und wie du mit Phrase Sets/Vokabular nachhelfen kannst.

Setup in Kürze

  • Sprache: Deutsch
  • Input: ca. 6:30 Minuten kontinuierlicher Vortrag (Fachjargon, Zahlen, Eigennamen, Dialekte, Anglizismen)
  • Dienste:
    • AWS Transcribe
    • GCP Cloud Speech-to-Text: Chirp2
    • GCP Cloud Speech-to-Text: Long
  • Jeweils mit und ohne Vokabular/Phrase Set (6 Durchläufe)
  • Live-Streaming-Szenario: max. 40 Sekunden Latenz; spätere Ergebnisse wurden verworfen
  • WER-Berechnung: (Substitutionen + Deletionen + Insertionen) / Gesamtwörter; Interpunktion normalisiert

Wichtige Randbedingung Ergebnisse, die später als 40 Sekunden eintrafen, galten als „verworfen“. Das benachteiligt Modelle mit langsamem/unkonstantem Finalisierungsverhalten – genau das trat beim GCP‑Long‑Modell auf.

Das Testtranskript (Anforderungen)

Der Vortrag „Die Zukunft der KI und ihre gesellschaftlichen Auswirkungen“ deckt gezielt Stolpersteine ab:

  • Komposita (z. B. Donaudampfschifffahrtsgesellschaftskapitän)
  • Zahlen/Statistiken (Geldbeträge, Prozent, Jahreszahlen, Telefonnummern, PLZ)
  • Fachterminologie (Medizin, Physik, Biochemie, IT)
  • Abkürzungen/Akronyme (NATO, UNESCO, BIP, DAX, EZB, ROI, DNA, RNA, IoT)
  • Eigennamen/Institutionen (z. B. UKE, Volkswagen AG)
  • Dialektale Ausdrücke (Schwäbisch, Bayerisch, Norddeutsch)
  • Zeit-/Datumsangaben und Kontaktdaten

Das Ziel war, ein realistisches, „hartes“ Live‑Szenario zu simulieren.

Ergebnisse

SystemWord Error RateAccuracyErrorsCorrectSubsDelIns
Chirp12.45 %87.55%99717591921
Chirp + vocabulary11.95 %88.05%95715542615
AWS11.70 %88.30%93712701310
AWS + vocabulary12.08 %87.92%96711711312
GCP Long70.06 %29.94%5572504849712
GCP long + vocabulary64.78 %35.22%5153035543723

Subs: Ersetzte Wörter, Del: gelöschte Wörter, Ins: Eingefügte Wörter

Fehlerarten (Substitutions, Deletions, Insertions) nach Service und Model.
Fehlerarten (Substitutions, Deletions, Insertions) nach Service und Model.

Interpretation

  • AWS Transcribe: niedrigste WER (11,70%), zugleich wenig Deletionen → im Live-Fenster zuverlässig.
  • GCP Chirp2: ähnlich gut, mit Phrase Set eine leichte Verbesserung. Etwas mehr Deletionen als AWS, aber weniger Insertions/teils weniger Substitutionen.
  • GCP Long: sehr hohe Deletionen (497 bzw. 437) → stark darauf hindeutend, dass Finalisierungen oft nicht im 40‑Sekunden‑Fenster ankamen. Mit Phrase Set minimal besser, aber weiterhin live problematisch.

Latency matters Die Latenz war bei GCP teils stark schwankend; AWS lief stabiler. Ohne konsistente Finalisierungen klettert die WER – nicht, weil die akustische Modellierung per se „schlecht“ ist, sondern weil Ergebnisse schlicht zu spät kommen.

Was bedeuten Phrase Sets/Vokabular in der Praxis?

  • GCP Chirp2 profitierte leicht von Phrase Sets (−0,5 Prozentpunkte WER), v. a. bei Eigennamen/Terminologie.
  • AWS zeigte mit Phrase Set hier keinen Vorteil (sogar minimal schlechter). Ursache kann ein Over‑Biasing sein, das zu Substitutionen/Insertionen führt.
  • GCP Long profitiert inhaltlich etwas, bleibt aber im Live-Modus wegen Latenz problematisch.

Pragmatischer Tipp

  • Nutze Phrase Sets selektiv und spezifisch (Eigennamen, Produktbegriffe, Akronyme).
  • Teste Gewichtungen; zu aggressive Boosts können Fehlzuordnungen erhöhen.
  • Aktualisiere Phrase Sets dynamisch vor Events (z. B. Speaker‑Namen, Agenda, Firmennamen).

Empfehlungen für deinen Live‑Setup

  1. Wähle das Modell nach Modus, nicht nur nach „Genauigkeit auf dem Papier“
  • Live (strenge Latenz): AWS Transcribe oder GCP Chirp2 (mit vorsichtigem Phrase Set) sind praktikabel.
  • Offline/Batch: GCP Long kann interessant sein – aber nicht für enge Echtzeitfenster.
  1. Plane für Latenz-Unsicherheiten
  • Setze Timeouts, aber logge Späterückläufer separat für Post‑Event‑Auswertungen.
  • Verwende Puffer/Segmentierung (z. B. 10–15‑Sekunden‑Chunks), um stabilere Finalisierungen zu fördern.
  1. Optimiere Akustik und Normalisierung
  • Saubere, konstante Audiopegel; vermeide Raumhall.
  • Post‑Processing: Zahlen/Datums-/Telefonformatierung mit RegEx/Heuristiken korrigieren.
  • Spracherkennung mit Domain-Wissen ergänzen (z. B. Abkürzungen-Mapper).
  1. Messe nicht nur WER
  • Trenne Fehlerarten: Hohe Deletion → Latenz-/Stabilitätsproblem, hohe Substitution → Akustik/Sprachmodell oder Over‑Biasing, hohe Insertion → zu aggressive Hypothesen.
  • Beobachte „Time‑to‑Final“ und Revisionshäufigkeit von Zwischenhypothesen.

Grenzen der Studie

  • Ein einziger Vortrag, wenn auch inhaltlich breit und anspruchsvoll.
  • Sechs nacheinander statt parallel; mögliche Lauf‑zu‑Lauf‑Varianz.
  • Keine quantitativen Latenz‑Metriken erhoben (nur qualitative Beobachtung).
  • Vendor‑Konfigurationen nicht bis ins Maximum getuned (bewusst praxisnah).

So holst du mehr aus eigenen Tests

  • Nutze mehrere Sprecher, Umgebungen und Längen.
  • Logge Time‑to‑Final, Stabilität von Zwischenhypothesen, Jitter.
  • Teste verschiedene Phrase‑Set‑Gewichtungen und Kanal-/Sample‑Rates.

Fazit

Für deutschsprachige Live‑Transkription mit engem Latenzfenster war in diesem Test AWS Transcribe die robusteste Wahl, knapp gefolgt von GCP Chirp2 (mit leichtem Boost durch Phrase Sets). Das GCP‑Long‑Modell lieferte im Streaming‑Betrieb zu viele Deletionen, vermutlich wegen verspäteter Finalisierungen.

Wenn du heute ein Live‑Event betexten willst, beginne mit AWS oder GCP Chirp2, halte Phrase Sets schlank und messbar, und überwache konsequent Latenz und Fehlerarten. So bekommst du verlässlichere Untertitel – und ein besseres Erlebnis für dein Publikum.