Monitoring infra: čo si premyslieť pred návrhom
Monitoring má hodnotu vtedy, keď je jasné čo je kritické, aký je cieľ dostupnosti a kto a ako reaguje. Inak sa z neho stane zdroj šumu a zbytočných zásahov.
Minimum je definovať SLO, vlastníka alertov, eskalácie a runbook pre triage.
Kľúčové otázky
- Ktoré služby sú pre biznis najdôležitejšie a aký dopad má ich výpadok?
- Aké sú očakávania dostupnosti a reakčných časov?
- Kto rieši alerty a aká je eskalačná cesta?
- Existuje minimálny runbook pre triage?
- Čo monitorujete: end-to-end službu alebo len infra metriky?
- Ako redukujete šum: severity, deduplikácia, závislosti, maintenance windows?
Praktický štart
Začnite malým počtom alertov pre kritické služby a komponenty, ktoré viete reálne obslúžiť. Rozširujte až vtedy, keď máte procesy a spätnú väzbu.