AI-skolan
AI safety (AI-säkerhet) är ett forsknings- och ingenjörsfält som studerar och försöker förebygga risker med avancerade AI-system — allt från omedelbara risker som bias och missbruk till mer långsiktiga frågor om hur man säkerställer att kraftfulla AI-system agerar i enlighet med mänskliga värderingar och intressen. Fältet inkluderar teknisk forskning om alignment, robusthet och interpretabilitet.
En konkret AI safety-utmaning är att säkerställa att en autonom AI-agent som ombeds att maximera ett visst mål inte hittar oväntade sätt att uppnå det på som skadar människor. Klassiska tankeexperiment som 'paperclip maximizer' illustrerar varför det inte räcker att ge en AI ett enkelt mål — det måste vara noggrant formulerat och avgränsat.
