
เห็น Mistral OCR เปิดให้ใช้งาน
พอดีมี use case ต้องใช้งานเกี่ยวกับ OCR(Optical Character Recognition)
ซึ่งเป็นไฟล์ PDF ที่ scan เป็นรูป มาจากเอกสารที่เป็นกระดาษ
ดังนั้นจึงต้องทำการอ่านข้อมูลจากไฟล์เหล่านี้มาใช้งาน
ทั้งการ chunking และ embedding
เพื่อทำการจัดเก็บใน Vector database เพื่อใช้งานต่อไป
ดังนั้นมาลองใช้งานกันดู
การใช้งานก็ไม่ยาก ก่อนอื่นทำการสมัครใช้งาน Mistral API ก่อน
โดยที่เป็นการเปิดใช้งานแบบเติมเงินขั้นต่ำสุด 10 USD
จึงจะสามารถสร้าง API Key เพื่อมาใช้งานได้
จากนั้นทำการเขียน code ง่าย ๆ ด้วยภาษา Python
ทาง Mistral ได้เตรียม SDK ของภาษา Python ไว้ให้
หรือจะใช้งาน JavaScript/TypeScript ก็ได้
มาลองใช้งานกัน
- ทำการอ่านข้อมูลจากไฟล์ PDF ที่มาจากการ scan
- ทำการแปลงข้อมูลเป็น base64
- ทำการบันทึกผลในไฟล์ Markdown
โดยผลที่ได้มีความถูกต้องที่สูงมาก ๆ
ทั้ง ๆ ที่ข้อมูลในไฟล์มาจากการ scan จากกระดาษ ที่ผ่านการส่ง FAX มาอีกด้วย
เป็นอีกวิธีการที่น่าสนใจ
ไว้ต้องลองดูกับเอกสารจริง ๆ ว่าจะมีค่าใช้จ่ายสูงเท่าไร