Ir al contenido
DevOps y CI/CD 6 min. de lectura

Alerting bien hecho: De la fatiga de alertas a notificaciones accionables

Demasiadas alertas son igual de problemáticas que ninguna. Mostramos cómo construir un sistema de alerting que solo se dispare cuando realmente importa.

devRocks Team · 18. febrero 2026 · Aktualisiert: 21. mayo 2026
Alerting Observability SRE On-Call
Alerting bien hecho: De la fatiga de alertas a notificaciones accionables

El problema de la fatiga por alertas

Cuando su ingeniero de guardia recibe 50 alertas al día, de las cuales 48 son falsos positivos, las dos reales también se ignoran. La fatiga por alertas es uno de los mayores riesgos para la fiabilidad del sistema.

Principios para buenas alertas

  • Basadas en síntomas: Alerte sobre síntomas (alta tasa de errores, tiempos de respuesta lentos), no sobre causas (CPU alta). Una CPU al 90% sin impacto no es una alerta.
  • Accionables: Cada alerta debe tener una instrucción de acción clara. Si nadie puede hacer nada, no es una alerta, sino una entrada de log.
  • Niveles de severidad: Distinga entre P1 (despertar ahora) y P3 (revisar mañana). No todo es una alerta de pager.

Alertas basadas en SLOs

El enfoque más moderno: defina Service Level Objectives (SLOs) y alerte cuando el Error Budget se agote.

  • Error Budget: Con un SLO del 99.9%, dispone de aproximadamente 43 minutos de presupuesto de inactividad por mes.
  • Burn Rate: Alerte cuando el presupuesto se consume más rápido de lo esperado, no ante cada error individual.
  • Multiwindow: La combinación de una ventana rápida (5 min) y una lenta (1 h) reduce drásticamente los falsos positivos.

Consejos prácticos

Realice revisiones periódicas de alertas. Elimine las alertas a las que nadie responde. Documente runbooks para cada alerta restante. Y respete la rotación de guardia: quien no ha dormido, comete errores.

¿Preguntas sobre este tema?

Le asesoramos con gusto sobre las tecnologías y soluciones descritas en este artículo.

Contactar

Seit über 25 Jahren realisieren wir Engineering-Projekte für Mittelstand und Enterprise.

Weitere Artikel aus „DevOps y CI/CD“

Preguntas frecuentes

Las principales causas de la fatiga por alertas suelen ser una cantidad excesiva de alertas, muchas de las cuales se clasifican como falsos positivos. Cuando los ingenieros de guardia se enfrentan diariamente a un alud de notificaciones irrelevantes, existe el riesgo de que ignoren problemas reales.
Las alertas deben clasificarse por nivel de gravedad en categorías como P1 (acción inmediata) hasta P3 (para revisar más tarde). Esto asegura que los problemas críticos se traten rápidamente, mientras que las alertas menos importantes no requieran atención innecesaria.
Los Objetivos de Nivel de Servicio (SLOs) definen el rendimiento aceptable de un servicio, por ejemplo, una disponibilidad del 99.9%. Al establecer SLOs, los equipos pueden disparar alertas de manera específica cuando se agota el presupuesto de errores, lo que aumenta la relevancia y la capacidad de acción de las notificaciones.
Para reducir la cantidad de alertas, se deben realizar revisiones de alertas regularmente para eliminar aquellas que ya no son necesarias. Además, las alertas deben basarse en síntomas y llevar instrucciones claras de acción para asegurar que sean realmente relevantes.
La rotación de guardia es crucial porque la falta de sueño puede afectar la toma de decisiones. Cuando los miembros del equipo sufren de falta de sueño con frecuencia, aumenta la probabilidad de que pasen por alto alertas reales o cometan errores, lo que puede poner en peligro la confiabilidad del sistema.

¿No encontró respuesta?

Contáctenos