AI-skolan

Vad är
Document chunking

Document chunking är processen att dela upp längre dokument i mindre, hanterbara textstycken (chunks) inför vektorisering och lagring i en vektordatabas, som en del av ett RAG-system. Hur dokumentet chunkas — storlek på chunk, överlapp mellan chunks och hur man hanterar strukturerade element som rubriker — har stor inverkan på retrieval-kvaliteten.

Exempel

En 50-sidig årsredovisning kan inte lagras som en enda vektor i en RAG-pipeline, eftersom vektorn inte kan fånga alla detaljer och retrieval-sökning inte kan hitta specifika avsnitt. Istället delas dokumentet i chunks om 300–500 ord med 50 ords överlapp, vektoriseras separat och lagras så att relevanta stycken kan hämtas på frågenivå.

ML
Avancerat