マルチモーダル入力
Multimodal Input
AI用語解説
テキストだけでなく、画像・音声・動画・PDFなど複数の形式のデータをまとめてAIに入力できる機能のことです。より多様な業務への応用が可能になります。
さらに詳しく解説
マルチモーダル入力とは、AIに対してテキスト文章だけでなく、画像・音声・動画・PDFなど複数の種類(モダリティ)のデータを同時に入力できる機能のことです。
たとえば、「この写真の商品について説明文を作って」と画像を添付してAIに依頼したり、「このPDFの契約書から重要条項を抜き出して」とファイルを添付する使い方がマルチモーダル入力の典型例です。
ChatGPT-4oやGemini Ultra、Claude 3などの最新モデルはマルチモーダル入力に対応しており、業務活用の幅が大きく広がっています。現場での活用例としては、①商品写真からの説明文自動生成、②手書きメモのデジタル化・整形、③図面や帳票の内容読み取り、④会議音声からの議事録作成などが挙げられます。
テキスト入力のみに比べ、実際の業務で扱うさまざまな形式のデータを直接AIに処理させられるため、作業効率が飛躍的に高まります。対応形式はモデルやプランによって異なるため、事前に確認が必要です。