
ทำความรู้จักกับ Docling สำหรับการแปลงข้อมูลจากไฟล์ต่าง ๆ ให้ง่ายต่อการนำไปใช้งาน
เช่นการใช้งานในโลกของ AI หรือ LLM นั่นเอง (AI Friendly) จาก IBM
โดยพื้นฐานจะทำงานเหมือนกับ markitdown จาก Microsoft
สนับสนุน format file ต่าง ๆ
แต่สิ่งที่เพิ่มเติมเข้ามา คือ Advance PDF processing
นั่นคือ สามารถอ่านและทำความเข้าใจข้อมูลในไฟล์ PDF ได้ดีขึ้น
ยกตัวอย่างเช่น
- เข้าใจเรื่อง page layout ต่าง ๆ ของ PDF (Layout analysis model)
- เข้าใจโครงสร้าง table (Vision-Based Table Formatter)
- เข้าใจการอ่าน PDF แบบมี column
- เข้าใจสมการทางคณิตศาสตร์
- อ่าน text ในรูปภาพได้ หรือ OCR นั่นเอง
- จัดกลุ่มของรูปภาพใน PDF ได้
- สามารถ integrate เข้ากับ library ต่าง ๆ ทาง LLM ได้ เช่น LangChain, LlamaIndex, Crew AI และ Haystack ได้ ทำให้สร้าง RAG app ได้ง่าย ๆ เลย

ในอนาคตจะสนับสนุนพวก chart ต่าง ๆ ได้อีกด้วย (น่าสนใจมาก ๆ)
รวมทั้งเข้าใจสัญลักษณ์ทางด้านเคมีและโมเลกุลต่าง ๆ
โครงสร้างการทำงานเป็นดังรูป

มาดูตัวอย่างการใช้งานกันนิดหน่อย
ในการติดตั้งนั้นใช้ library ต่าง ๆ เยอะมาก ๆ
ลองติดตั้ง และ แก้ไขปัญหากันดู
โดยทำการอ่านไฟล์ PDF แบบ 2 columns เล่นดู

ทำการเขียน code แบบง่าย ๆ
ทำการ run จะนานหน่อย เพราะว่า ต้อง download model มาลงเครื่อง
ได้ผลลัพธ์ดังนี้
ได้ผลเป็นที่น่าพอใจมาก ๆ
ไว้ลองแบบอื่น ๆ ดู คิดว่าน่าจะทำได้ดี