ในการสร้าง RAG app (Retrieval Augmented Generation) นั้น
ขั้นตอนการ retrieve ข้อมูลนั้นสำคัญมาก ๆ สำหรับความถูกต้อง
แต่อีกเรื่องที่สำคัญมาก ๆ คือ
การอ่านข้อมูลจาก data source ชนิดต่าง ๆ มากมาย
เพื่อนำมาใช้งาน หรือ ในรูปแบบที่เอื้อต่อ AI (AI friendly)
เช่น
- PDF, Image, VDO
- Website
- Source code ใน Git repository ต่าง ๆ
เราจะทำอย่างไรบ้าง ?
จากปัญหาและความต้องการ จะมี library หรือ เครื่องมือต่าง ๆ
ที่นำมาใช้งาน ประกอบไปด้วย
ใช้งาน Repomix สำหรับอ่านและสรุปข้อมูลจาก Git repository

อ่านข้อมูลในไฟล์ประเภทต่าง ๆ เช่น PDF, Word, Excel และ OCR เป็นต้น
ประกอบไปด้วย
- Docling จาก IBM
- MarkItDown จาก Microsoft
- Unstructured สำหรับอ่าน PDF แบบ advance
อ่านข้อมูลจาก website ต่าง ๆ

ลองใช้งานกันดูครับ
เพิ่มเติม MegaParse สำหรับการอ่านไฟล์ PDF, Docx และ PTT
และไฟล์พื้นฐานต่าง ๆ ทั้ง text และ CSV เป็นต้น
รวมถึงการ integrated กับ LLM provider ต่าง ๆ
สำหรับ MegaParse Vision อีกด้วย
