
ทาง Google เพื่อปล่อย embedding model ชื่อว่า Gemini embedding 2 preview ออกมา
ซึ่งเป็น model ที่รองรับ input หลายชนิด หรือ Multimodel เช่น
- Text รองรับ input ได้ถึง 8,192 token ซึ่งเพิ่มจาก model เดิมถึง 4 เท่า
- Image รองรับไฟล์ PNG/JPEG จำนวน 6 ไฟล์ต่อrequest
- Video รองรับไฟล์ MOV/MP4 ที่มีความยาวไม่เกิน 2 นาที
- Document เช่น ไฟล์ PDF รับได้ถึง 6 หน้า
- Audio
ที่เด่น ๆ คือ ในการส่งข้อมูลไปยัง model นี้
ยังสามารถส่งรูปพร้อม text caption
หรือ VDO clip ที่มีเสียงเราอธิบาย เข้ามาได้ใน request เดียวกัน
แล้วตัว model จัดการความสัมพันธ์ของ input ต่าง ๆ ที่ส่งเข้ามาให้เอง
จากนั้นจะทำการสร้าง vector ออกมาเพียงชุดเดียวให้
โดยที่ขนาดหรือ dimension ของ vector ที่ผ่านการ embedding นั้น
จะมีขนาดสูงสุดที่ 3072
แนะนำให้กำหนดขนาดตามความต้องการของเรา (3072, 1536, 768)
ทั้ง performance, ค่าใช้จ่ายของการจัดเก็บ และ memory ที่ใช้งาน
ในการสร้าง vector ของ model นี้
จะทำการนำข้อมูลที่สำคัญของ input มาไว้ในตำแหน่งแรก ๆ ของ vector
ตามแนวทางของ Matryoshka Representation Learning (MRL)
ดังนั้นในการประยุกต์ใช้งาน เช่นในระบบ RAG นั้น แนะนำเป็น 2 ขั้นตอนคือ
- ขั้นตอนแรกทำการ embedding ด้วยขนาดเล็ก ๆ เช่น 256 หรือ 768 ทำให้ดึงข้อมูล top k ได้รวดเร็ว
- ขั้นตอนที่สอง ทำการ re-ranking ข้อมูลที่ได้จากขั้นตอนแรก ด้วย embedding ที่มีขนาด 3072
ผลที่ได้จะมีความถูกต้องสูง และใช้เวลาที่รวดเร็วขึ้น
ลองใช้งาน Embedding model ตัวนี้กันดูครับ
น่าจะช่วยให้การทำ RAG app
เพื่อทำการค้นหา (Semantic search) ได้สะดวก และ มีความถูกต้องมากยิ่งขึ้น
รวมทั้งระบบ memory ต่าง ๆ ของ AI Agent/Assist ต่าง ๆ
ก็มีการปรับมาใช้แล้ว เช่น OpenClaw 2026.3.11
สามารถดู code ตัวอย่างได้ที่ Gemini notebook
ตัวอย่างการส่งข้อมูล text และ image ไปใน request เดียวกัน
โดยต้องการให้สร้าง output ออกมาเพียง vector เดียวเท่านั้น
หรือถ้าต้องการให้มี 2 vector แยกกันก็ได้
ทำการสร้าง API Key ได้จาก Google Studio AI
ผลการทำงานจะได้ vector ตัวเดียวออกมา
ลองใช้งานกันดูครับ
ซึ่งพวก library ต่าง ๆ และ Vector database ทุกตัวสนับสนุนอยู่แล้ว