マルチモーダル入出力
Multimodal Input/Output
AI用語解説
テキストだけでなく、画像・音声・動画なども一緒にAIに渡したり、AIからそれらの形式で返答を受け取ったりできる機能のことです。
さらに詳しく解説
マルチモーダル入出力とは、AIが文字情報だけでなく、画像・音声・動画・PDFなど複数の種類のデータを同時に処理できる仕組みのことです。
たとえば「この商品写真を見て、商品説明文を書いて」や「この設計図の画像をもとに問題点を指摘して」といった使い方が可能になります。従来のAIはテキストのみを扱うものが多く、画像を読み込ませるには別のツールが必要でしたが、最新のLLMではこれらを一体で処理できます。
経営現場では、議事録の音声ファイルをそのままAIに渡して要約させたり、競合他社のチラシ画像を読み込ませて分析させたりと、幅広い活用が広がっています。ただし、対応するモデルやプランによって扱える形式・サイズに制限があるため、導入前に確認が必要です。