
ทาง Microsoft ได้ปล่อย MarkitDown library สำหรับภาษา Python
สำหรับการแปลงข้อมูลจากไฟล์ต่าง ๆ มาอยู่ในรูปแบบของ Markdown
เพื่อให้สามารถนำไปใช้งานต่อได้ง่าย ๆ
เช่นการ indexing ข้อมูล และ การวิเคราะห์ข้อมูล เป็นต้น
โดยจะสนับสนุนไฟล์ต่าง ๆ ดังนี้
- กลุ่มของ Microsoft Office
- PDF ซึ่งใช้งาน library ชื่อว่า pdfminer
- รูปภาพ ทั้งการดึงค่า EXIF metadata และ OCR
- เสียง
- HTML
- รวมทั้งพวก text-based format เช่น CSV, JSON และ XML เป็นต้น
การใช้งานก็ง่ายมาก ๆ เพียงแค่ติดตั้ง
จากนั้นก็เขียน code ใช้งานเลย
หรือใช้งานผ่าน uvx ได้เลย
$uvx markitdown your-file
แถมยังทำงานร่วมกับ LLM provider ได้อีกด้วย
เช่นการอ่านและอธิบายข้อมูลจากไฟล์รูปภาพ
ผลการทำงานเป็นดังนี้
ลองใช้งานกันดูครับ