ทำความรู้จักกับ Docling สำหรับการแปลงข้อมูลจากไฟล์ต่าง ๆ ให้ง่ายต่อการนำไปใช้งาน
เช่นการใช้งานในโลกของ AI หรือ LLM นั่นเอง (AI Friendly) จาก IBM
โดยพื้นฐานจะทำงานเหมือนกับ markitdown จาก Microsoft
สนับสนุน format file ต่าง ๆ
แต่สิ่งที่เพิ่มเติมเข้ามา คือ Advance PDF processing
นั่นคือ สามารถอ่านและทำความเข้าใจข้อมูลในไฟล์ PDF ได้ดีขึ้น

ยกตัวอย่างเช่น

  • เข้าใจเรื่อง page layout ต่าง ๆ ของ PDF (Layout analysis model)
  • เข้าใจโครงสร้าง table (Vision-Based Table Formatter)
  • เข้าใจการอ่าน PDF แบบมี column
  • เข้าใจสมการทางคณิตศาสตร์
  • อ่าน text ในรูปภาพได้ หรือ OCR นั่นเอง
  • จัดกลุ่มของรูปภาพใน PDF ได้
  • สามารถ integrate เข้ากับ library ต่าง ๆ ทาง LLM ได้ เช่น LangChain, LlamaIndex, Crew AI และ Haystack ได้ ทำให้สร้าง RAG app ได้ง่าย ๆ เลย

ในอนาคตจะสนับสนุนพวก chart ต่าง ๆ ได้อีกด้วย (น่าสนใจมาก ๆ)
รวมทั้งเข้าใจสัญลักษณ์ทางด้านเคมีและโมเลกุลต่าง ๆ

โครงสร้างการทำงานเป็นดังรูป

มาดูตัวอย่างการใช้งานกันนิดหน่อย

ในการติดตั้งนั้นใช้ library ต่าง ๆ เยอะมาก ๆ
ลองติดตั้ง และ แก้ไขปัญหากันดู

โดยทำการอ่านไฟล์ PDF แบบ 2 columns เล่นดู

ทำการเขียน code แบบง่าย ๆ

ทำการ run จะนานหน่อย เพราะว่า ต้อง download model มาลงเครื่อง
ได้ผลลัพธ์ดังนี้

ได้ผลเป็นที่น่าพอใจมาก ๆ
ไว้ลองแบบอื่น ๆ ดู คิดว่าน่าจะทำได้ดี