หลังจากอ่านเรื่อง Incident response ใน SRE Bookพบว่าเป็นสิ่งที่สำคัญมาก ๆเมื่อเกิดปัญหาต่าง ๆ ขึ้นมาบน production server แล้วเช่น ทำงานผิดพลาดหรือพัง ระบบ network มีปัญหา และ data หลุด เป็นต้นเราจะจัดการมันอย่างไรเนื่องจากยิ่งแก้ได้ช้า ผลกระทบก็ยิ่งมากส่งผลต่อทั้งระบบ การบริการ ลูกค้า และ องค์กร

Read More…