AI-skolan
Document chunking är processen att dela upp längre dokument i mindre, hanterbara textstycken (chunks) inför vektorisering och lagring i en vektordatabas, som en del av ett RAG-system. Hur dokumentet chunkas — storlek på chunk, överlapp mellan chunks och hur man hanterar strukturerade element som rubriker — har stor inverkan på retrieval-kvaliteten.
Exempel
En 50-sidig årsredovisning kan inte lagras som en enda vektor i en RAG-pipeline, eftersom vektorn inte kan fånga alla detaljer och retrieval-sökning inte kan hitta specifika avsnitt. Istället delas dokumentet i chunks om 300–500 ord med 50 ords överlapp, vektoriseras separat och lagras så att relevanta stycken kan hämtas på frågenivå.
ML
Avancerat
