AI-skolan
Speech-to-text (STT) är teknik som omvandlar talat ljud till skriven text och är synonymt med automatisk taligenkänning (ASR). Moderna system bygger på transformerbaserade modeller och kan transkribera med nära mänsklig precision på många språk, inklusive med korrekt interpunktion och identifiering av olika talare.
Exempel
OpenAIs Whisper-modell kan ta ett inspelat möte på 90 minuter och producera en fullständig transkription med korrekt stavning och interpunktion på under en minut — på svenska, engelska eller ett tiotal andra språk simultant. Journalister använder det för att transkribera intervjuer, och läkare för att dokumentera patientsamtal.
AI
Verktyg
