ทาง Microsoft ได้ปล่อย MarkitDown library สำหรับภาษา Python
สำหรับการแปลงข้อมูลจากไฟล์ต่าง ๆ มาอยู่ในรูปแบบของ Markdown
เพื่อให้สามารถนำไปใช้งานต่อได้ง่าย ๆ
เช่นการ indexing ข้อมูล และ การวิเคราะห์ข้อมูล เป็นต้น

โดยจะสนับสนุนไฟล์ต่าง ๆ ดังนี้

  • กลุ่มของ Microsoft Office
  • PDF ซึ่งใช้งาน library ชื่อว่า pdfminer
  • รูปภาพ ทั้งการดึงค่า EXIF metadata และ OCR
  • เสียง
  • HTML
  • รวมทั้งพวก text-based format เช่น CSV, JSON และ XML เป็นต้น

การใช้งานก็ง่ายมาก ๆ เพียงแค่ติดตั้ง
จากนั้นก็เขียน code ใช้งานเลย

หรือใช้งานผ่าน uvx ได้เลย

$uvx markitdown your-file

แถมยังทำงานร่วมกับ LLM provider ได้อีกด้วย
เช่นการอ่านและอธิบายข้อมูลจากไฟล์รูปภาพ

ผลการทำงานเป็นดังนี้

ลองใช้งานกันดูครับ