หลังจากที่ใช้งาน AI Agent สำหรับการทำงานต่าง ๆ
ทั้งการ planning, coding และ testing ตลอดจนการสร้างเอกสารต่าง ๆ
พบว่าเรื่องของการจัดการ context นั้นสำคัญมาก ๆ (Context engineering)
รวมทั้งเรื่องของการ optimized จำนวนของ token ที่ใช้งานด้วย
ซึ่งยิ่งลดได้มากเท่าไรก็ยิ่งดี เพราะว่าช่วยลดค่าใช้จ่ายลงไป
แต่ต้องยังคงเรื่องคุณภาพ
โดยแนวทางมีแนะนำมากมาย แต่หนึ่งในวิธีการที่น่าสนใจคือ
การเลือกใช้ LLM model ให้เหมาะกับงาน เช่น
- Claude Sonnet หรือ Kimi สำหรับงานที่ต้องทำการคิด วิเคราะห์ วางแผน
- Claude Opus สำหรับการเขียน code และ testing
ปกติจะเป็นการกำหนดแบบตรงไปตรงมา หรือ manual เลยว่าจะใช้อะไร
จะดีกว่าไหมถ้ามีตัวกลางมาช่วยเลือก หรือ routing model ให้เราแบบอัตโนมัติ
หรืออาจจะเรียกว่า Smart Model Routing

โดยหนึ่งในเครื่องมือที่น่าสนใจคือ Plano
เป็น LLM routing model ให้ระบบงานต่าง ๆ เช่น AI Agent ต่าง ๆ
โดยสามารถใช้งานได้ทั้งการระบุชื่อ หรือ alias name ได้เลย
หรือใช้งานใน mode dynamic ตามการใช้งาน
ซึ่งทำการเลือก LLM model ด้วย Arch Router model
โดยทำการเลือกจาก
- Domain ของระบบงาน
- Action หรือการทำงานว่าเป็นเรื่องอะไร
- Routing preference ที่กำหนดไว้ใน configuration ใน Plano
ซึ่ง Plano จะ start server ขึ้นมาโดยที่ compatible กับ OpenAI API นั่นเอง
ดังนั้นระบบต่าง ๆ ที่ใช้งานจึงไม่ต้องเปลี่ยนแปลงอะไร
เพียงแค่เปลี่ยน endpoint ให้มาที่ Plano เท่านั้น
อีกทั้งมีระบบ Observability ให้อีกด้วย เช่น Distributed tracing เป็นต้น

ลองใช้งานกันดูครับ
เป็นอีกวิธีการที่น่าสนใจ
Reference websites