AI-skolan

Vad är
Latency

Latency (latens) inom AI är den tid det tar från att en förfrågan skickas till en modell tills ett svar returneras. Låg latens är avgörande i realtidsapplikationer som röstassistenter, chattbottar och realtidsöversättning, medan det i andra sammanhang är mer acceptabelt med längre svarstider. Latensen påverkas av modellstorlek, hårdvara och nätverksförhållanden.

Exempel

En AI-röstassistent i en bil behöver svara på kommandon inom under en sekund för att kännas naturlig att använda. Om latensen är för hög upplevs samtalet som onaturligt och hackigt. Av den anledningen körs ofta mindre, komprimerade modeller lokalt på fordonets processor istället för via molnet.

ML
Avancerat
Kod & Teknik