เนื่องจากปกติจะคอยดูและบันทึกข้อมูล
ของผู้ติดเชื้อ COVID 19 ของประเทศไทยรายวันไว้
ด้วยที่ข้อมูลเป็นรูปภาพเช่นจากไทยรู้สู้โควิด
จึงต้องเก็บข้อมูลไว้แบบ manual
ทำไปทำมารู้สึกเบื่อและเหนื่อย
จึงลองเขียน program อ่านค่าข้อมูลจากรูปภาพด้วย Tesseract OCR กันหน่อย
มือใหม่หัดลองเขียนแบบมั่ว ๆ

สิ่งที่ใช้ในการพัฒนาแบบง่าย ๆ

  • Python 3
  • Tesseract
  • pytesseract เป็น library สำหรับภาษา python ซึ่งเป็น wrapper นั่นเอง

เพิ่มเติมคือ Tesseract เริ่มต้นไม่รู็จักภาษาไทย
จึงต้องทำการเพิ่มภาษาไทยเข้าไป โดย download ได้จากที่นี่
จากนั้นนำไปไว้ใน folder ที่เราต้องการ
ตัวอย่างผมทำการเก็บไว้ใน /testdata
จะมีทั้งภาษาไทยและภาษาอื่น ๆ ที่เราต้องการดึงออกมา

ทดสอบการเพิ่มภาษาเข้าไปใน Tesseract

ด้วยคำสั่งดังนี้

จากนั้นเขียน code ง่าย ๆ เพื่ออ่านข้อมูล ด้วยภาษา Python

โดยข้อมูลรูปภาพที่ใช้คือ

ผลจากการ run program ได้ผลดังนี้

สังเกตได้ว่า ผลที่ได้ยังมีข้อผิดพลาดจาก font
ที่ไม่สามารถอ่านได้ แต่ก็ถือว่าลดงาน manual ไปได้พอสมควร
ไว้ต้องไปปรับปรุงเพิ่มเติม
แต่ก็ช่วยลดเวลาลงไปได้เยอะ
ลองดูครับ มือใหม่หัดเขียนไปเรื่อย ๆ

Tags:,