AI-skolan

Vad är
Tokenization

Tokenisering är processen att dela upp text i mindre enheter, kallade tokens, som en AI-modell kan bearbeta. En token kan vara ett ord, del av ett ord eller ett skiljetecken beroende på tokeniseringsmetoden. Förståelse för tokenisering är viktigt för att förstå en modells kontextfönster, kostnad (API-priser mäts ofta i tokens) och hur modellen "ser" text.

Exempel

Ordet "tokenization" kan delas upp i tokens som ["token", "ization"] och meningen "AI är kraftfullt" kan bli 4–5 tokens. Det innebär att ett dokument på 1 000 ord kan motsvara ungefär 1 300–1 500 tokens. API-priser för modeller som GPT-4 debiteras per token, så att förstå tokenisering hjälper dig att optimera kostnader.

LLM
Avancerat