用語解説
Datadog監視とは、クラウドインフラ・アプリケーション・ログ・APMトレース・リアルユーザーモニタリングを一元管理できるDatadogの監視・オブザーバビリティプラットフォームを活用した運用管理手法です。
メトリクス(Metrics)・ログ(Logs)・トレース(Traces)の3つのシグナルを統合ダッシュボード上で相関分析できるため、マイクロサービス環境での障害原因の特定やパフォーマンスボトルネックの発見が迅速になります。Watchdog(AI異常検知)・SLO管理・インシデント管理機能も統合されています。
どんな場面で活用するか
- Kubernetes上のマイクロサービスのリソース使用率・エラーレート・レイテンシを一元監視したい場合
- 本番障害発生時にログ・メトリクス・トレースを横断して根本原因を素早く特定したいSREチーム
- ビジネスKPI(注文数・決済成功率)をインフラメトリクスと同じダッシュボードで監視したいプロダクトチーム
よくある誤解
「Datadogはエージェントを入れれば自動で全部監視できる」は誤りです。正しくは、エージェントのインストール後にアプリケーションへのAPMトレース計装・カスタムメトリクスの定義・アラートのしきい値設定などの追加設定が必要であり、監視の質は設定の質に依存します。
判断のヒント
コスト最適化:Datadogはログ収集量と保存期間によってコストが大きく変わります。不要なデバッグログをフィルタリングして取り込み量を削減し、保存期間をSLAに合わせて最適化するだけで月次コストを30〜50%削減できた事例があります。