AI-skolan
RLHF (Reinforcement Learning from Human Feedback) är en träningsmetod som kombinerar reinforcement learning med mänskliga preferenser för att göra AI-modeller mer hjälpsamma, harmlösa och ärlika. Mänskliga granskare rankar modellens svar och dessa rankings används för att träna en rewardmodell, som i sin tur styr vidare träning av LLM:en via RL.
Exempel
Utan RLHF tenderar LLM:er att generera plausibel men potentiellt skadlig eller oanvändbar text. Med RLHF lärde sig ChatGPT att svara på ett sätt som mänskliga användare faktiskt föredrar — hjälpsamt, sammanhängande och med rimliga gränser. Det är anledningen till att moderna chatbottar är så mycket mer användbara än tidiga GPT-3-modellen.
ML
AI
Avancerat
