レイテンシ(AI応答速度)
LLM Latency
AI用語解説
AIに質問してから最初の回答が返ってくるまでの時間です。顧客対応チャットや社内ツールの快適さに直結するため、業務AIシステム選定の重要な指標です。
さらに詳しく解説
レイテンシとは、AIへの入力(質問・指示)から最初の出力(回答の先頭文字)が返ってくるまでの時間(遅延)のことです。「応答速度」とも呼ばれます。
AIモデルの性能(賢さ)と応答速度はトレードオフの関係にあることが多く、高性能なモデルほど応答に時間がかかる傾向があります。顧客向けチャットボットや社内問い合わせシステムでは、応答が遅いとユーザーが離脱したり不満を持ったりするため、レイテンシの管理が重要です。
主要なAPI提供社は「TTFT(最初のトークンが返るまでの時間)」という指標を公開しています。用途別に求められるレイテンシは異なり、リアルタイム会話なら1〜2秒以内、バックグラウンド処理なら10秒以上でも許容される場合があります。システム選定時は「高性能モデル+高レイテンシ」か「軽量モデル+低レイテンシ」かのバランスを業務要件に合わせて判断することが大切です。