マルチモーダル入力

Multimodal Input

AI用語

解説

テキストだけでなく、画像・音声・動画・PDFなど複数の形式のデータをまとめてAIに入力できる機能のことです。より多様な業務への応用が可能になります。

さらに詳しく解説

マルチモーダル入力とは、AIに対してテキスト文章だけでなく、画像・音声・動画・PDFなど複数の種類（モダリティ）のデータを同時に入力できる機能のことです。

たとえば、「この写真の商品について説明文を作って」と画像を添付してAIに依頼したり、「このPDFの契約書から重要条項を抜き出して」とファイルを添付する使い方がマルチモーダル入力の典型例です。

ChatGPT-4oやGemini Ultra、Claude 3などの最新モデルはマルチモーダル入力に対応しており、業務活用の幅が大きく広がっています。現場での活用例としては、①商品写真からの説明文自動生成、②手書きメモのデジタル化・整形、③図面や帳票の内容読み取り、④会議音声からの議事録作成などが挙げられます。

テキスト入力のみに比べ、実際の業務で扱うさまざまな形式のデータを直接AIに処理させられるため、作業効率が飛躍的に高まります。対応形式はモデルやプランによって異なるため、事前に確認が必要です。

自社での使い方を相談する

マルチモーダル入力を自社の業務に当てはめる場合は、対象業務、既存データ、運用担当者、成果指標を先に整理すると判断しやすくなります。

問い合わせる › 無料相談を予約する ›