LLM評価

LLM Evaluation

AI用語

解説

AIの回答品質・精度・安全性などを数値や基準で測定・評価するプロセスです。業務導入前のモデル選定や、運用後の品質管理に欠かせない取り組みです。

さらに詳しく解説

LLM評価とは、大規模言語モデルの回答の正確性・有用性・安全性・一貫性などを体系的に測定・評価するプロセスです。「エバリュエーション（Eval）」とも呼ばれます。

評価の主な観点には、①事実の正確さ（ハルシネーション発生率）、②指示への忠実さ、③有害コンテンツの排除率、④応答速度（レイテンシ）、⑤コスト効率などがあります。自動評価と人手評価を組み合わせるのが一般的です。

企業がAIを業務導入する前に、実際の業務に近いテストケースを作成してモデルを評価することで、本番環境でのトラブルを未然に防げます。また導入後も定期的に評価を行い、モデル更新による品質変化を検知することが重要です。LLMの評価ツールとしてはOpenAI Evals・LangSmith・RAGASなどが利用されています。評価基準を社内で明文化しておくことが、AI品質管理の第一歩です。