AWS Monthly (Mai '25): La Mort de la Salle de Crise
Mai a apporte CloudWatch Investigations, qui ont fondamentalement change la rotation d'astreinte. Au lieu de la correlation manuelle des logs, ...
Mai a apporte CloudWatch Investigations, qui ont fondamentalement change la rotation d'astreinte. Au lieu de la correlation manuelle des logs, ce service utilise l'IA pour effectuer une Analyse Automatisee des Causes Racines (RCA).
Lorsqu'une alarme se declenche, Investigations trace automatiquement l'erreur. Il correle les pics de metriques avec les evenements simultanes -- comme un commit Git specifique, un Terraform apply ou un changement de parametre RDS. Au lieu d'un tableau de bord affichant "Erreurs 500," vous obtenez un rapport disant : "Le pic de latence dans le Service A a ete cause par un changement de configuration dans le Service B qui a declenche une fuite de connexion dans RDS."
Combine avec CloudWatch RUM Session Replay, vous pouvez desormais reproduire visuellement le parcours de l'utilisateur avant un crash. C'est effectivement une "Machine a Remonter le Temps" pour votre infrastructure. Si vous faites encore de la plongee manuelle dans les logs pendant les incidents, mai vous a rendu vos week-ends.
Plus d'Ercan
Deux autres sites, même auteur, terrain différent.
IA, LLMs, agents, ML appliquée.
Notes de terrain sur les charges IA. Analyse des coûts Bedrock, patterns d'agents, compromis de stockage vectoriel, modes de défaillance en production.
Visiter ercan.ai →Le hub. À propos, conseil, contact.
Hub personnel pour les deux pistes d'écriture. Qui je suis, comment fonctionne le conseil, comment me joindre.
Visiter ercanermis.com →