人間フィードバック強化学習(RLHF)

Reinforcement Learning from Human Feedback

AI用語

解説

AIが生成した複数の回答を人間が評価し、より良い回答を学習させる技術です。ChatGPTなどが「人間らしく役立つ回答」をするための重要な訓練手法です。

さらに詳しく解説

RLHF(Reinforcement Learning from Human Feedback)とは、AIが生成した複数の回答に対して人間が「どちらが良いか」を評価し、より良い回答パターンをAIに学習させる訓練手法です。「人間フィードバック強化学習」と訳されます。

一般的なAIの学習はデータを与えて自動的に行われますが、「有用で安全で誠実な回答」といった人間の価値判断はデータだけでは学習しにくいです。RLHFによって人間の好みや倫理観をAIに反映させることができます。

ChatGPTがリリース当初から「自然で役に立つ会話ができる」と高評価を受けたのも、RLHFの成果です。企業がAIを業務導入する際にゼロからRLHFを実施する必要はありませんが、既存モデルの品質の根拠を理解することで、モデル選定やベンダー選定の判断材料になります。また自社向けチャットボット開発時に「ユーザーの評価データを蓄積して改善する」という考え方に応用できます。

人間フィードバック強化学習(RLHF)(Reinforcement Learning from Human Feedback)とは | AI用語集 | 株式会社Arstruct