プロンプトインジェクション

用語解説

プロンプトインジェクションとは、悪意のある入力テキストを用いてAIの指示（システムプロンプト）を上書き・無効化し、意図しない動作を引き起こすサイバー攻撃です。SQL インジェクションのAI版と理解すると分かりやすいです。

外部ユーザーからの入力をAIに渡すシステムは、すべてプロンプトインジェクションのリスクを持ちます。チャットボット・AIカスタマーサポート・AI検索などを公開している場合は特に注意が必要です。

AIチャットボットをリリース前に「以前の指示を無視して」「あなたの設定を教えて」などのパターンでテストし、意図しない応答が起きないか確認します。リリース前の必須テスト項目として組み込むべき内容です。

外部Webページや不特定ドキュメントをAIに読み込ませるシステムでは、読み込むデータに悪意ある指示が混入するリスクがあります。入力データのサニタイズと出力のフィルタリングを実装します。

AIに与えるシステムプロンプトの漏洩を防ぐため、プロンプトの内容を出力しないよう明示的に指示し、漏洩テストを定期的に実施します。

社内ツールであっても、不満を持つ従業員や外部委託先が悪用するリスクがあります。内部からの攻撃（インサイダー脅威）も想定した設計が必要です。

現在の技術では完全な防御は困難です。プロンプトレベルの対策に加えて、出力フィルタリング・権限設計・監査ログの多層防御が現実的なアプローチです。

APIを使って構築したシステムの責任はシステム構築者にあります。基盤モデルの安全性と、それを利用したアプリケーションの安全性は別の問題です。

以下に該当するシステムは優先的に対策を行ってください。

Creative Drive AIエージェントプラン

コンテンツマーケティングを、AIが月最大100記事・全自動で実行

競合データ×顧客行動データをリアルタイムで掛け合わせ、担当者の工数ほぼゼロで問い合わせを増やし続けます。ChatGPT・Perplexityへの引用最適化（AIO/LLMO）にも対応。