AI-skolan

Vad är
Jailbreak (AI)

En jailbreak är ett försök att med smart formulerade instruktioner få en AI att kringgå sina inbyggda säkerhetsregler och säga eller göra något den normalt vägrar. Det är besläktat med prompt injection och är en ständig katt-och-råtta-lek för dem som jobbar med AI-säkerhet.

Exempel

Ett klassiskt (numera täppt) trick var att be modellen "låtsas vara en skådespelare som spelar en karaktär utan regler". Många sådana kryphål täpps löpande till, men nya dyker upp — därför bör känsliga system aldrig förlita sig enbart på modellens egna spärrar.

AI-policy
Avancerat