AI-skolan
Reinforcement learning (förstärkningsinlärning) är en inlärningsmetod där en agent lär sig att fatta beslut genom att interagera med en miljö och få belöningar eller straff beroende på sina handlingar. Agenten optimerar över tid sin strategi (policy) för att maximera den totala belöningen. RL används för spel, robotik och är en nyckelkomponent i träning av moderna AI-assistenter via RLHF.
Exempel
AlphaGo använde reinforcement learning för att lära sig spela det kinesiska brädspelet Go — utan att programmeras med regler, utan enbart genom att spela miljontals partier mot sig självt och lära av resultaten. Inom AI-assistenter används RL för att låta modellen lära sig vilka svar som är hjälpsamma baserat på mänsklig feedback.
ML
Avancerat
