GLOSSARY

Agent Evaluation Metrics

エージェント評価指標

用語解説

エージェント評価指標とは、AIエージェントの精度・効率・安全性・信頼性を定量的に測定するための指標体系です。LLMの単純な生成品質評価とは異なり、エージェントが「複数ステップのタスクを正しく完遂できるか」という観点での評価が中心となります。

「AIが動いているように見える」と「AIが正しく目標を達成している」は別物です。客観的な指標がなければ、エージェントの本当の実力を把握することも改善することもできません。

主な評価指標カテゴリ

  • タスク完遂率:与えられたタスクを最後まで正しく完了した割合
  • 精度指標:出力の正確さ・関連性・完全性の評価
  • 効率指標:タスク完遂に要したステップ数・時間・コスト(トークン消費量)
  • 安全性指標:有害コンテンツ生成率・不正操作実行率・プロンプトインジェクション耐性
  • 信頼性指標:同じ入力に対して一貫した出力を返す確率

どんな場面で活用するか

エージェントのA/Bテスト

同じタスクセットを2種類のエージェント設定(プロンプト・ツール構成・モデル)で実行し、完遂率・ステップ数・コストを比較します。感覚ではなくデータに基づいたエージェント改善を行えます。

本番モニタリング指標の設計

「エラー率」「人間エスカレーション率」「平均処理時間」「ユーザー満足度スコア」を継続的に計測するダッシュボードを構築します。異常値を検知したら即時アラートを出す体制を整えます。

エージェントの段階的な権限拡大

評価指標が一定の閾値を超えたことを確認した上で、エージェントの権限(処理できるタスクの種類や影響範囲)を段階的に拡大します。品質保証に基づいた安全な本番展開です。

よくある誤解

❌ 誤解1:LLMのベンチマークスコアがそのままエージェント性能を示す

言語モデルの汎用ベンチマーク(MMLU等)は、特定の業務タスクでのエージェント性能とは相関しないことが多いです。実際の業務タスクで独自評価することが不可欠です。

❌ 誤解2:ユーザー満足度だけ測れば十分

ユーザーが満足していても、実際には誤った情報を提供していたり、非効率な手順を踏んでいる可能性があります。客観的な正確性・効率性指標を合わせて計測してください。

❌ 誤解3:評価は開発完了後に行う

評価指標は開発初期から定義して継続的に計測することで、改善サイクルが機能します。「まず作って後で測る」では改善の根拠データが不足します

判断のヒント

以下のフェーズで評価指標の設計・活用が特に重要です。

  • エージェント開発の初期段階(評価軸の合意形成)
  • モデル・プロンプト変更時(デグレード検知)
  • 本番展開後の継続モニタリング(異常検知)
  • 権限拡大・適用範囲拡張の判断(Go/No-Goの根拠)

「この用語を自社で活用できるか確認したい」
「どの施策から始めるべきか相談したい」

無料相談で最適な活用方法をご提案します。