
ทางทีมพัฒนาของ Microsoft ได้ปล่อย Webwright ออกมาให้ใช้งาน
โดยที่ Webwright จะมี architecture ของการทำงานเป็นดังนี้
ประกอบไปด้วย 3 ส่วนหลัก ๆ คือ
- ตัวจัดการหลัก (Orchestrator หรือ Conductor) สำหรับรับคำสั่งหรือ goal จากผู้ใช้งาน โดยทำงานตาม loop (prompt -> observe -> execute)
- Model endpoint สำหรับสร้าง prompt structure และติดต่อสื่อสารกับ LLM provider ต่าง ๆ เช่น OpenAI, Claude และ OpenAI เป็นต้น
- Terminal environment เตรียม environment สำหรับการสร้าง code ด้วยภาษา python ซึ่งมีทั้ง httpx, pydantic, typer และ playwright ถ้าเทียบกับเครื่องมืออื่น ๆ จะทำการ interact กับ web browser แบบ step-by-step แต่ตัว Webwright จะทำการสร้าง python code ขึ้นมา จากนั้นทำการ run/execute และบันทึก screenshot เพื่อใช้ดูว่าการทำงานถูกหรือผิด ถ้าผิดจะทำการแก้ไขต่อไป จนกว่าจะผ่าน ซึ่งมันคือ harness สำหรับ web-agent นั่นเอง

เป็นอีกหนึ่งแนวทางในการจัดการงานบน web
และมีทั้ง CLI และ Agent Skills ให้เลย
น่าสนใจมาก ๆ