レイテンシ(AI応答速度)

LLM Latency

AI用語

解説

AIに質問してから最初の回答が返ってくるまでの時間です。顧客対応チャットや社内ツールの快適さに直結するため、業務AIシステム選定の重要な指標です。

さらに詳しく解説

レイテンシとは、AIへの入力(質問・指示)から最初の出力(回答の先頭文字)が返ってくるまでの時間(遅延)のことです。「応答速度」とも呼ばれます。

AIモデルの性能(賢さ)と応答速度はトレードオフの関係にあることが多く、高性能なモデルほど応答に時間がかかる傾向があります。顧客向けチャットボットや社内問い合わせシステムでは、応答が遅いとユーザーが離脱したり不満を持ったりするため、レイテンシの管理が重要です。

主要なAPI提供社は「TTFT(最初のトークンが返るまでの時間)」という指標を公開しています。用途別に求められるレイテンシは異なり、リアルタイム会話なら1〜2秒以内、バックグラウンド処理なら10秒以上でも許容される場合があります。システム選定時は「高性能モデル+高レイテンシ」か「軽量モデル+低レイテンシ」かのバランスを業務要件に合わせて判断することが大切です。

レイテンシ(AI応答速度)(LLM Latency)とは | AI用語集 | 株式会社Arstruct