LLMジェイルブレイク

LLM Jailbreak

AI活用

解説

AIの安全制限を意図的に回避しようとする行為です。不正な情報を引き出したり、制限されたコンテンツを生成させようとする悪用リスクがあり、企業の対策が必要です。

さらに詳しく解説

LLMジェイルブレイクとは、AIモデルに設定されている安全ガイドラインや利用制限を、巧みな質問の仕方や特殊なプロンプトによって意図的に回避しようとする行為です。

たとえば「架空のキャラクターとして」「教育目的として」などの前置きを使って、通常では回答が拒否されるような有害情報・機密情報を引き出そうとするケースが知られています。悪意のある第三者が試みる場合もありますが、AIシステムに接続している社内ユーザーが意図せず行う場合もあります。

企業でAIを活用する場合のリスクとしては、①競合情報や社内機密の意図せぬ開示、②コンプライアンス違反コンテンツの生成、③AIシステムを通じた不正操作があります。対策としては、システムプロンプトによるガードレール設定、入力内容の監視・フィルタリング、社内AIポリシーの整備と教育が有効です。AI導入時にはセキュリティ設計の一環として対策を組み込むことが重要です。