Monitoring infra: čo si premyslieť pred návrhom

Monitoring má hodnotu vtedy, keď je jasné čo je kritické, aký je cieľ dostupnosti a kto a ako reaguje. Inak sa z neho stane zdroj šumu a zbytočných zásahov.

Minimum je definovať SLO, vlastníka alertov, eskalácie a runbook pre triage.

Kľúčové otázky

  • Ktoré služby sú pre biznis najdôležitejšie a aký dopad má ich výpadok?
  • Aké sú očakávania dostupnosti a reakčných časov?
  • Kto rieši alerty a aká je eskalačná cesta?
  • Existuje minimálny runbook pre triage?
  • Čo monitorujete: end-to-end službu alebo len infra metriky?
  • Ako redukujete šum: severity, deduplikácia, závislosti, maintenance windows?

Praktický štart

Začnite malým počtom alertov pre kritické služby a komponenty, ktoré viete reálne obslúžiť. Rozširujte až vtedy, keď máte procesy a spätnú väzbu.

Súvisiace