เนื่องจากปกติจะคอยดูและบันทึกข้อมูล
ของผู้ติดเชื้อ COVID 19 ของประเทศไทยรายวันไว้
ด้วยที่ข้อมูลเป็นรูปภาพเช่นจากไทยรู้สู้โควิด
จึงต้องเก็บข้อมูลไว้แบบ manual
ทำไปทำมารู้สึกเบื่อและเหนื่อย
จึงลองเขียน program อ่านค่าข้อมูลจากรูปภาพด้วย Tesseract OCR กันหน่อย
มือใหม่หัดลองเขียนแบบมั่ว ๆ
สิ่งที่ใช้ในการพัฒนาแบบง่าย ๆ
- Python 3
- Tesseract
- pytesseract เป็น library สำหรับภาษา python ซึ่งเป็น wrapper นั่นเอง
เพิ่มเติมคือ Tesseract เริ่มต้นไม่รู็จักภาษาไทย
จึงต้องทำการเพิ่มภาษาไทยเข้าไป โดย download ได้จากที่นี่
จากนั้นนำไปไว้ใน folder ที่เราต้องการ
ตัวอย่างผมทำการเก็บไว้ใน /testdata
จะมีทั้งภาษาไทยและภาษาอื่น ๆ ที่เราต้องการดึงออกมา
ทดสอบการเพิ่มภาษาเข้าไปใน Tesseract
ด้วยคำสั่งดังนี้
จากนั้นเขียน code ง่าย ๆ เพื่ออ่านข้อมูล ด้วยภาษา Python
โดยข้อมูลรูปภาพที่ใช้คือ
ผลจากการ run program ได้ผลดังนี้
สังเกตได้ว่า ผลที่ได้ยังมีข้อผิดพลาดจาก font
ที่ไม่สามารถอ่านได้ แต่ก็ถือว่าลดงาน manual ไปได้พอสมควร
ไว้ต้องไปปรับปรุงเพิ่มเติม
แต่ก็ช่วยลดเวลาลงไปได้เยอะ
ลองดูครับ มือใหม่หัดเขียนไปเรื่อย ๆ