人間フィードバック強化学習(RLHF)
Reinforcement Learning from Human Feedback
AI用語解説
AIが生成した複数の回答を人間が評価し、より良い回答を学習させる技術です。ChatGPTなどが「人間らしく役立つ回答」をするための重要な訓練手法です。
さらに詳しく解説
RLHF(Reinforcement Learning from Human Feedback)とは、AIが生成した複数の回答に対して人間が「どちらが良いか」を評価し、より良い回答パターンをAIに学習させる訓練手法です。「人間フィードバック強化学習」と訳されます。
一般的なAIの学習はデータを与えて自動的に行われますが、「有用で安全で誠実な回答」といった人間の価値判断はデータだけでは学習しにくいです。RLHFによって人間の好みや倫理観をAIに反映させることができます。
ChatGPTがリリース当初から「自然で役に立つ会話ができる」と高評価を受けたのも、RLHFの成果です。企業がAIを業務導入する際にゼロからRLHFを実施する必要はありませんが、既存モデルの品質の根拠を理解することで、モデル選定やベンダー選定の判断材料になります。また自社向けチャットボット開発時に「ユーザーの評価データを蓄積して改善する」という考え方に応用できます。