5月に登場したCloudWatch Investigationsは、オンコール当番を根本的に変えた。手動でのログ相関の代わりに、このサービスはAIを使って自動根本原因分析(RCA)を実行する。

アラームがトリガーされると、Investigationsは自動的にエラーを追跡する。メトリクスのスパイクを同時発生イベント(特定のGitコミット、Terraform apply、RDSパラメータ変更など)と相関させる。「500エラー」を示すダッシュボードではなく、次のようなレポートが届く: 「サービスAのレイテンシスパイクは、サービスBの設定変更によってRDSでコネクションリークが発生したことが原因です。」

CloudWatch RUM Session Replayと組み合わせることで、クラッシュに至るまでのユーザーの操作を視覚的に再現できるようになった。これは事実上、インフラストラクチャの「タイムマシン」だ。インシデント発生時にまだ手動でログを掘っているなら、5月があなたに週末を取り戻してくれた。