LLMセーフティ
LLM Safety
AI用語解説
AIが有害・不適切な回答を生成しないようにするための技術や設計指針です。企業がAIを安全に業務利用するための土台となる考え方です。
さらに詳しく解説
LLMセーフティとは、大規模言語モデルが差別的・暴力的・違法な内容を生成したり、機密情報を漏洩したりしないようにするための技術的・倫理的な取り組みの総称です。
主な手法としては、①有害コンテンツをフィルタリングするコンテンツモデレーション、②AIの回答範囲を制限するシステムプロンプト設計、③人間のフィードバックで安全な回答を学習させるRLHF(人間フィードバック強化学習)、④回答前後に安全性をチェックするガードレールなどがあります。
企業がAIを業務・顧客対応に活用する際は、LLMセーフティの観点から「どのような回答が生成されるリスクがあるか」を事前に検討し、テストを重ねることが重要です。OpenAIやAnthropicなどの主要プロバイダーはセーフティに関するドキュメントを公開しており、導入前に確認することを推奨します。