レイテンシ（AI応答速度）

LLM Latency

AI用語

解説

AIに質問してから最初の回答が返ってくるまでの時間です。顧客対応チャットや社内ツールの快適さに直結するため、業務AIシステム選定の重要な指標です。

さらに詳しく解説

レイテンシとは、AIへの入力（質問・指示）から最初の出力（回答の先頭文字）が返ってくるまでの時間（遅延）のことです。「応答速度」とも呼ばれます。

AIモデルの性能（賢さ）と応答速度はトレードオフの関係にあることが多く、高性能なモデルほど応答に時間がかかる傾向があります。顧客向けチャットボットや社内問い合わせシステムでは、応答が遅いとユーザーが離脱したり不満を持ったりするため、レイテンシの管理が重要です。

主要なAPI提供社は「TTFT（最初のトークンが返るまでの時間）」という指標を公開しています。用途別に求められるレイテンシは異なり、リアルタイム会話なら1〜2秒以内、バックグラウンド処理なら10秒以上でも許容される場合があります。システム選定時は「高性能モデル＋高レイテンシ」か「軽量モデル＋低レイテンシ」かのバランスを業務要件に合わせて判断することが大切です。