AI-skolan
Multimodal AI syftar på modeller som kan bearbeta och förstå flera typer av data samtidigt — till exempel text, bilder, ljud och video. Tidigare var de flesta AI-modeller specialiserade på en modalitet, men moderna multimodala modeller kan kombinera information från olika källor för att ge mer nyanserade och kontextrika svar.
Exempel
GPT-4o kan ta emot en bild av ett trasigt eluttag och en textfråga om hur man lagar det, och sedan ge ett steg-för-steg-svar anpassat till exakt det uttag som visas. Samma modell kan transkribera ett röstmeddelande och sammanfatta det skriftligt.
AI
LLM
