หลังจากที่ใช้งาน AI Agent สำหรับการทำงานต่าง ๆ
ทั้งการ planning, coding และ testing ตลอดจนการสร้างเอกสารต่าง ๆ
พบว่าเรื่องของการจัดการ context นั้นสำคัญมาก ๆ (Context engineering)
รวมทั้งเรื่องของการ optimized จำนวนของ token ที่ใช้งานด้วย
ซึ่งยิ่งลดได้มากเท่าไรก็ยิ่งดี เพราะว่าช่วยลดค่าใช้จ่ายลงไป
แต่ต้องยังคงเรื่องคุณภาพ

โดยแนวทางมีแนะนำมากมาย แต่หนึ่งในวิธีการที่น่าสนใจคือ

การเลือกใช้ LLM model ให้เหมาะกับงาน เช่น

  • Claude Sonnet หรือ Kimi สำหรับงานที่ต้องทำการคิด วิเคราะห์ วางแผน
  • Claude Opus สำหรับการเขียน code และ testing

ปกติจะเป็นการกำหนดแบบตรงไปตรงมา หรือ manual เลยว่าจะใช้อะไร
จะดีกว่าไหมถ้ามีตัวกลางมาช่วยเลือก หรือ routing model ให้เราแบบอัตโนมัติ
หรืออาจจะเรียกว่า Smart Model Routing

โดยหนึ่งในเครื่องมือที่น่าสนใจคือ Plano

เป็น LLM routing model ให้ระบบงานต่าง ๆ เช่น AI Agent ต่าง ๆ
โดยสามารถใช้งานได้ทั้งการระบุชื่อ หรือ alias name ได้เลย
หรือใช้งานใน mode dynamic ตามการใช้งาน
ซึ่งทำการเลือก LLM model ด้วย Arch Router model
โดยทำการเลือกจาก

  • Domain ของระบบงาน
  • Action หรือการทำงานว่าเป็นเรื่องอะไร
  • Routing preference ที่กำหนดไว้ใน configuration ใน Plano


ซึ่ง Plano จะ start server ขึ้นมาโดยที่ compatible กับ OpenAI API นั่นเอง
ดังนั้นระบบต่าง ๆ ที่ใช้งานจึงไม่ต้องเปลี่ยนแปลงอะไร
เพียงแค่เปลี่ยน endpoint ให้มาที่ Plano เท่านั้น

อีกทั้งมีระบบ Observability ให้อีกด้วย เช่น Distributed tracing เป็นต้น

ลองใช้งานกันดูครับ
เป็นอีกวิธีการที่น่าสนใจ

Reference websites