failure Archive

เจอ Bug ของระบบที่เป็นแบบระเบิดเวลา …

ในช่วง 1-2 วันที่ผ่านมา เจอปัญหาของระบบงานที่อยู่บน productionแน่นอนว่า ระบบล่ม เมื่อมีการใช้งานเยอะขึ้นCPU วิ่งไป 100% แบบพุ่งปรี๊ดดดจึงลองดูกันหน่อยว่าจะแก้ไข หรือ ทุเลาลงไปได้อย่างไร

Read More…

สรุปจากบทความเรื่อง Engineering For Failure

จากบทความเรื่อง Engineering For Failureทำการอธิบายถึงระบบงานที่มีความซับซ้อนมากขึ้นแต่ละส่วนงานแยกกันทำงานยกตัวอย่างเช่น service, database และ caching ต่าง ๆ แน่นอนว่า การติดต่อสื่อสารกันผ่านระบบ networkอาจจะเกิดข้อผิดพลาดในการติดต่อสื่อสารได้ดังนั้นเป็นสิ่งที่ต้องคิดและหาวิธีการจัดการเมื่อเกิดข้อผิดพลาดขึ้นมา (Design for failure)

Read More…

เมื่อผิดพลาด … เราต้องซ้ำ !!!

นักพัฒนาทุกๆ คน กลัวเรื่อง การทำผิดพลาด ดังนั้น นักพัฒนาทุกๆ คน จึงต้องทำบางสิ่งบางอย่าง เพื่อป้องกัน หรือ หลีกเลี่ยงข้อผิดพลาดต่างๆ เหล่านั้น แต่ถ้าเกิดเรายังทำผิดพลาดอีก เราจะไม่อยาก หรือ ไม่พูดถึงความผิดพลาดนั้นอีกเลย คำถามที่ต้องการให้ตอบดังๆ ในใจ การทำผิดพลาด มันแย่มากนักหรือไง

Read More…