マルチモーダル入出力

Multimodal Input/Output

AI用語

解説

テキストだけでなく、画像・音声・動画なども一緒にAIに渡したり、AIからそれらの形式で返答を受け取ったりできる機能のことです。

マルチモーダル入出力とは、AIが文字情報だけでなく、画像・音声・動画・PDFなど複数の種類のデータを同時に処理できる仕組みのことです。

たとえば「この商品写真を見て、商品説明文を書いて」や「この設計図の画像をもとに問題点を指摘して」といった使い方が可能になります。従来のAIはテキストのみを扱うものが多く、画像を読み込ませるには別のツールが必要でしたが、最新のLLMではこれらを一体で処理できます。

経営現場では、議事録の音声ファイルをそのままAIに渡して要約させたり、競合他社のチラシ画像を読み込ませて分析させたりと、幅広い活用が広がっています。ただし、対応するモデルやプランによって扱える形式・サイズに制限があるため、導入前に確認が必要です。

マルチモーダル入出力を自社の業務に当てはめる場合は、対象業務、既存データ、運用担当者、成果指標を先に整理すると判断しやすくなります。