Monitoring vs logy: čo riešia a prečo jedno bez druhého zlyháva

Monitoring a logy sa často zamieňajú. V návrhu infra odpovedajú na iné otázky: monitoring = čo sa deje, logy = prečo sa to deje.

Monitoring odpovedá, že je problém a aký má dopad. Logy odpovedajú, prečo problém vznikol.

Otázky, ktoré si treba zodpovedať

  • Čo je pre nás kritická služba a čo je len nice-to-have?
  • Kto reaguje na alert a aký je očakávaný čas reakcie?
  • Čo je incident a čo je len informácia?
  • Máme runbook alebo aspoň základný postup na triage?
  • Vieme z logov rýchlo dokázať príčinu, nielen vidieť symptóm?

Praktický záver

  • Najčastejšia chyba je mať veľa dát bez kontextu, čo generuje šum a paniku.
  • Dobrý návrh stanoví minimálny set metrík, alertov a logov, ktoré sú actionable.
  • Ak začínate, je lepšie mať málo alertov, ktoré naozaj riešite, než stovky, ktoré ignorujete.

Súvisiace: