LLMセーフティ

LLM Safety

AI用語

解説

AIが有害・不適切な回答を生成しないようにするための技術や設計指針です。企業がAIを安全に業務利用するための土台となる考え方です。

LLMセーフティとは、大規模言語モデルが差別的・暴力的・違法な内容を生成したり、機密情報を漏洩したりしないようにするための技術的・倫理的な取り組みの総称です。

主な手法としては、①有害コンテンツをフィルタリングするコンテンツモデレーション、②AIの回答範囲を制限するシステムプロンプト設計、③人間のフィードバックで安全な回答を学習させるRLHF（人間フィードバック強化学習）、④回答前後に安全性をチェックするガードレールなどがあります。

企業がAIを業務・顧客対応に活用する際は、LLMセーフティの観点から「どのような回答が生成されるリスクがあるか」を事前に検討し、テストを重ねることが重要です。OpenAIやAnthropicなどの主要プロバイダーはセーフティに関するドキュメントを公開しており、導入前に確認することを推奨します。