用語解説
どんな場面で活用するか
- プロンプト変更やモデルアップデート後の品質劣化を自動検出するリグレッションテストを整備したい場合
- エッジケースや悪意ある入力に対するエージェントの挙動を網羅的に検証したい場合
- 複数エージェントが連携するシステムの統合テストを自動化してCI/CDに組み込みたい場合
よくある誤解
判断のヒント
設計ポイント:テストケースをGolden Dataset(正解付きデータセット)として管理し、バージョン管理することで、モデルやプロンプトの変更による品質変化を定量的に追跡できます。