ทาง Google ได้ปล่อย Python library ชื่อว่า LangExtract ออกมา
เพื่อทำการแปลงข้อมูลจาก unstructured data มาเป็น structure data
ช่วยให้ง่าย และ สะดวกต่อการนำไปใช้งานอย่างมาก
และสามารถทำงานร่วมกัย LLM provider ต่าง ๆ ได้อีกด้วย (Gemini, OpenAI)
ไม่ได้จำกัดเพียงตัวใดตัวหนึ่งเท่านั้น

โดยที่ LangExtract จะทำการ extract ข้อมูลที่มีประโยชน์ออกมา
พร้อมแนบ metadata ของข้อมูลในเอกสารต่าง ๆ ให้ด้วย
ทำให้ trace กลับไปยังต้นฉบับได้ง่าย
อีกทั้งยังมีโครงสร้างของ output ที่ชัดเจน

สิ่งที่มีประโยชน์มาก ๆ คือ สามารถสอนให้เข้าใจข้อมูลในแต่ละ domain ได้อีกด้วย
ตัวอย่างเช่นข้อมูลเกี่ยว Medical เป็นต้น

ส่วนการทำงานกับข้อมูลขนาดใหญ่
ก็สามารถทำการแบ่งข้อมูลออกมา
แล้วทำการประมวลผลแบบ parallel ได้ด้วย

ข้อมูลที่สร้างออกมานั้น สามารถ visualize ดูในรูปแบบ HTML
เพื่อให้เข้าใจได้ง่ายขึ้นอีกด้วย

ลองใช้กันดูครับ
เป็น library ที่ช่วยให้ AI/LLM เข้าใจข้อมูลได้ดียิ่งขึ้น
ช่วยลดข้อผิดพลาดของการทำงานลงไปได้เยอะมาก ๆ