ในการสร้าง RAG app (Retrieval Augmented Generation) นั้น
ขั้นตอนการ retrieve ข้อมูลนั้นสำคัญมาก ๆ สำหรับความถูกต้อง
แต่อีกเรื่องที่สำคัญมาก ๆ คือ
การอ่านข้อมูลจาก data source ชนิดต่าง ๆ มากมาย
เพื่อนำมาใช้งาน หรือ ในรูปแบบที่เอื้อต่อ AI (AI friendly)
เช่น

  • PDF, Image, VDO
  • Website
  • Source code ใน Git repository ต่าง ๆ

เราจะทำอย่างไรบ้าง ?

จากปัญหาและความต้องการ จะมี library หรือ เครื่องมือต่าง ๆ
ที่นำมาใช้งาน ประกอบไปด้วย

ใช้งาน Repomix สำหรับอ่านและสรุปข้อมูลจาก Git repository

อ่านข้อมูลในไฟล์ประเภทต่าง ๆ เช่น PDF, Word, Excel และ OCR เป็นต้น

ประกอบไปด้วย

อ่านข้อมูลจาก website ต่าง ๆ

ลองใช้งานกันดูครับ

เพิ่มเติม MegaParse สำหรับการอ่านไฟล์ PDF, Docx และ PTT

และไฟล์พื้นฐานต่าง ๆ ทั้ง text และ CSV เป็นต้น
รวมถึงการ integrated กับ LLM provider ต่าง ๆ
สำหรับ MegaParse Vision อีกด้วย

Tags:,