alertmanager(2)
-
알림 설계: 노이즈를 줄이고 의미 있는 알림만 받는 방법
모니터링 도구를 도입하면 대부분 알림부터 설정합니다. CPU 80% 초과, 디스크 90% 초과, 5xx 에러 발생 — 하나씩 추가하다 보면 하루에 수십 건의 알림이 울립니다. 팀원들은 알림을 무시하기 시작하고, 정작 실제 장애 알림도 놓치게 됩니다. 이 글에서는 알림 피로(Alert Fatigue)를 줄이고, 사람이 대응해야 하는 상황에만 알림이 울리도록 설계하는 원칙을 정리합니다.핵심 요약알림은 "사람이 즉시 대응해야 하는 상황"에만 설정합니다. 정보성 알림은 대시보드로 대체합니다.원인(Cause)이 아닌 증상(Symptom)에 알림을 걸어야 커버리지가 높아집니다.심각도(Severity)를 명확히 분류하고, 각 심각도에 맞는 알림 채널과 대응 시간을 정의합니다.for 절(지속 시간)을 설정하여 일시적 ..
2026.06.07 -
Prometheus + Grafana로 Kubernetes 모니터링 구성하기
Kubernetes 클러스터를 운영하는데 모니터링이 없다면, 장애가 발생했을 때 "어디서, 왜, 얼마나" 문제인지 알 수 없습니다. kubectl top으로는 현재 순간만 볼 수 있고, 과거 데이터도 없고, 알림도 없습니다. Prometheus + Grafana 스택은 이 문제를 해결하는 오픈소스 표준 조합입니다.핵심 요약Prometheus는 Pull 기반 메트릭 수집기이며, Grafana는 시각화 도구입니다. 이 조합은 Kubernetes 모니터링의 사실상 표준(de facto standard)입니다.kube-prometheus-stack Helm 차트를 사용하면 Prometheus, Grafana, Alertmanager, node-exporter, kube-state-metrics를 한 번에 배포할..
2026.06.06