文字起こし(音声認識)
Speech-to-Text / Transcription
AI用語解説
会議などの音声をAIが自動でテキストに変換する技術。録音データをもとに発言内容を文字化し、議事録作成の手間を大幅に減らせる。
さらに詳しく解説
文字起こし(音声テキスト変換)とは、マイクや録音データから人の声を認識し、自動でテキストデータに変換する技術です。英語では「Speech-to-Text(STT)」とも呼ばれます。
かつては人間が録音を聞きながら手作業で文字を打ち込む必要があり、1時間の会議の文字起こしに2〜3時間かかることも珍しくありませんでした。AI技術の発展により、現在では数分で同じ作業が完了します。
中小企業での活用例としては、社内会議・営業商談・採用面接・研修などの記録が挙げられます。精度は話者の発音や音声品質に左右されるため、良質なマイクを使うと認識精度が向上します。また、専門用語や固有名詞は認識精度が下がる場合があるため、事後確認が必要です。