ในการแบ่งปันความรู้เรื่องของ observability ของ service หรือ ระบบงานนั้นหนึ่งในเรื่องที่น่าสนใจคือ การตรวจสอบ และ การ alert เพื่อแจ้งเตือนการทำงานที่ไม่ปกติแบบอัตโนมัติเพื่อให้เรารู้ปัญหา และ จุดเกิดเหตุได้รวดเร็วยิ่งขึ้นจากนั้นก็จะช่วยให้เราแก้ไขได้รวดเร็วมากยิ่งขึ้นหรือช่วยปรับปรุงเรื่องของ MTTR (Mean Time to Recovery/Repair) ให้ดีขึ้น

Read More…