WebMCP

Alexandra Klepper
Alexandra Klepper

เผยแพร่: 18 พฤษภาคม 2026

WebMCP เป็นมาตรฐานเว็บที่เสนอเพื่อช่วยคุณสร้างและเปิดเผยเครื่องมือที่มีโครงสร้างสำหรับเอเจนต์ AI WebMCP มี JavaScript และ อธิบายประกอบองค์ประกอบแบบฟอร์ม HTML เพื่อให้ Agent ทราบวิธีโต้ตอบกับ ฟีเจอร์ของหน้าเว็บอย่างถูกต้องเพื่อรองรับประสบการณ์ของผู้ใช้ ซึ่งจะช่วยปรับปรุง ประสิทธิภาพและความน่าเชื่อถือของการกระทำของเอเจนต์ได้อย่างมาก

เอเจนต์ AI เป็นเทคโนโลยีที่ใหม่กว่า โดยสามารถช่วยให้ผู้ใช้ที่เป็นมนุษย์ทำงานที่ซับซ้อนและต้องใช้ความรู้ทางเทคนิคให้เสร็จสมบูรณ์ได้ดียิ่งขึ้น WebMCP มีความแม่นยำสูงกว่าสําหรับ การทํางานที่เป็น Agent และสามารถเพิ่มเป็นการเพิ่มประสิทธิภาพแบบต่อเนื่องได้

ทำไมถึงควรเลือกใช้ WebMCP

WebMCP ช่วยลดช่องว่างระหว่างเว็บแอปพลิเคชันและเอเจนต์ ปรับปรุงประสิทธิภาพ ความน่าเชื่อถือ และการทำงานให้เสร็จสมบูรณ์ด้วยการกำหนดกฎสำหรับการโต้ตอบ แทนที่จะให้ตัวแทนตรวจสอบองค์ประกอบ เช่น ปุ่มหรือฟิลด์ เพื่อทำความเข้าใจวัตถุประสงค์ขององค์ประกอบนั้น เว็บไซต์จะประกาศวัตถุประสงค์ขององค์ประกอบเพื่อให้มีการใช้งานอย่างถูกต้อง

ซึ่งมีความน่าเชื่อถือมากกว่าการกระตุ้นที่อาจมีหลายขั้นตอนและเปิดให้ Agent ตีความแต่ละขั้นตอน

เว็บไซต์สามารถแชร์วัตถุประสงค์ที่ชัดเจน เช่น การค้นหาหรือการซื้อ โดยการกำหนดเครื่องมือ เครื่องมือเหล่านี้จะทำงานในหน้าเว็บอย่างชัดเจน เพื่อให้ผู้ใช้มั่นใจว่าระบบจะทำงานให้เสร็จตามที่คาดไว้ นอกจากนี้ยังช่วยให้ตัวเลือกการออกแบบที่คำนึงถึงมนุษย์เป็นศูนย์กลางและแบรนด์ของคุณยังคงอยู่

WebMCP รองรับการดำเนินการต่อไปนี้

  • Discovery: วิธีมาตรฐานสำหรับหน้าเว็บในการลงทะเบียนเครื่องมือกับเอเจนต์ เช่น checkout หรือ filter_results
  • สคีมา JSON: คำจำกัดความที่ชัดเจนของอินพุตและเอาต์พุตที่คาดไว้ เพื่อลดการหลอนหรือความเข้าใจผิด
  • สถานะ: ความเข้าใจร่วมกันเกี่ยวกับบริบทของหน้าเว็บปัจจุบัน เพื่อให้เอเจนต์ทราบว่ามีทรัพยากรอะไรบ้างที่พร้อมใช้งานแบบเรียลไทม์

เป้าหมายของเราคือการสร้าง API ที่เบราว์เซอร์ใดก็ตามที่มีความสามารถด้าน Agentic AI สามารถนำไปใช้และรับประโยชน์ได้ เพื่อให้ผู้ใช้ทำงานต่างๆ ได้ง่ายขึ้น คุณ ติดตามกระบวนการนี้ได้ที่ GitHub

กรณีการใช้งาน

คุณใช้ WebMCP บนเว็บได้หลายวิธี เช่น

  • ช่วยให้ลูกค้าได้รับการสนับสนุน หากคุณให้บริการซอฟต์แวร์แก่ลูกค้า คุณอาจมีขั้นตอนการสนับสนุนที่ซับซ้อนเพื่อตอบคำถามที่แตกต่างกันมากมาย คุณสามารถใช้ WebMCP เพื่อช่วยให้ตัวแทนไปยังแบบฟอร์มที่ถูกต้องและกรอกข้อมูลในช่องต่างๆ ด้วยข้อมูลที่ผู้ใช้ระบุได้เร็วขึ้น
  • ปรับปรุงการจองการเดินทาง ช่วยให้ตัวแทนจำหน่ายจองการเดินทางที่ซับซ้อน การเดินทางแบบหลายเมือง และการเดินทางแบบหลายผู้โดยสารได้โดยใช้ขั้นตอนน้อยลง

การดำเนินการบางอย่างอาจมีความละเอียดอ่อน เช่น การซื้อ คุณสามารถใส่คำสั่งเพื่อขอให้ผู้ใช้โต้ตอบกับกล่องโต้ตอบการยืนยันได้

ในทางปฏิบัติ เครื่องมือของคุณสามารถทํางานต่อไปนี้ได้

  • กรอกแบบฟอร์มที่มีโครงสร้าง: สร้างเครื่องมือ submit_application เพื่อช่วยตัวแทนแมปข้อมูลที่รวบรวมจากการสนทนากับผู้ใช้ไปยังช่องแบบฟอร์มอย่างถูกต้อง เช่น คุณสามารถแยกความแตกต่างได้ว่าฟิลด์ต้องใช้ชื่อเต็มหรือชื่อและนามสกุลแยกกัน
  • การโต้ตอบกับตัวแทนฝ่ายสนับสนุนในอินเทอร์เฟซที่เน้นมนุษย์เป็นอันดับแรก: ฟิลด์บางรายการออกแบบมาสำหรับผู้ใช้ที่เป็นมนุษย์ แต่ตัวแทนอาจไม่เข้าใจ คุณสามารถสร้างdate_pickเครื่องมือที่ช่วยให้เลือกวันที่และเวลาที่ซับซ้อนในการจองหรือการจองกิจกรรมได้
  • การแก้ไขข้อบกพร่องของแอปพลิเคชันได้เร็วขึ้น: คุณสามารถสร้างเครื่องมือ run_diagnostics ในหน้าการตั้งค่าสำหรับนักพัฒนาแอป เพื่อให้ตัวแทนสามารถเรียกใช้การแก้ไขที่ซ่อนอยู่หลังเมนูที่ซ้อนกัน

หากไม่เห็น Use Case ของคุณ หรือคุณมีไอเดียที่อยากแชร์สำหรับ WebMCP ไหม เข้าร่วมโปรแกรมทดลองใช้เวอร์ชันเริ่มต้น และแชร์ความคิดเห็นของคุณ

เริ่มต้นใช้งาน

WebMCP พร้อมใช้งานเป็น Chrome Flag สำหรับการพัฒนาในเครื่อง โดยจะพร้อมใช้งาน ในช่วงทดลองใช้จากต้นทางใน Chrome 149

วิธีเปิดใช้ WebMCP ในเครื่อง

  1. เปิด Chrome แล้วไปที่ chrome://flags/#enable-webmcp-testing
  2. ตั้งค่า Flag เป็นเปิดใช้
  3. เปิด Chrome อีกครั้งเพื่อใช้การเปลี่ยนแปลง

ใช้ WebMCP API

คุณใช้ API 2 รายการต่อไปนี้เพื่อตั้งค่าเครื่องมือเว็บไซต์ได้

  • Imperative API: กำหนดเครื่องมือประเภทต่างๆ ด้วย JavaScript มาตรฐาน เช่น อินพุตแบบฟอร์ม เครื่องมือนำทาง การจัดการสถานะ หรือฟังก์ชันอื่นๆ
  • Declarative API: เพิ่มหมายเหตุลงในแบบฟอร์ม HTML มาตรฐาน เพื่อสร้างเครื่องมือ WebMCP

ข้อจำกัด

แม้ว่า WebMCP จะมีจุดมุ่งหมายเพื่อลดความซับซ้อนของงานที่ซับซ้อนสำหรับตัวแทนและมนุษย์ แต่ก็มีข้อจำกัดบางประการ ดังนี้

  • ต้องมีบริบทการเรียกดู: เนื่องจากมีการจัดการการเรียกเครื่องมือใน JavaScript จึงต้องเปิดแท็บเบราว์เซอร์หรือ WebView เพื่อแสดงอินเทอร์เฟซที่มองเห็นได้และ บริบทของเบราว์เซอร์ กล่าวคือ ไม่มีบริการสนับสนุนสำหรับเอเจนต์หรือเครื่องมือช่วยเหลือ ในการเรียกเครื่องมือในสถานะแบบไม่มีส่วนหัว
  • ค่าใช้จ่ายที่มากขึ้นสำหรับอินเทอร์เฟซที่ซับซ้อน: หากเว็บไซต์มีความซับซ้อนสูง คุณอาจต้องเปลี่ยนโครงสร้างภายในโค้ดหรือเพิ่ม JavaScript เพื่อจัดการสถานะของแอปพลิเคชันและอินเทอร์เฟซ
  • การค้นพบเครื่องมือ: ไคลเอ็นต์และเบราว์เซอร์ต้องเข้าชมเว็บไซต์โดยตรงจึงจะทราบว่าเว็บไซต์มีเครื่องมือที่เรียกใช้ได้หรือไม่

สาธิต

ตัวอย่างการสาธิตที่ครอบคลุมทั้งการติดตั้งใช้งานแบบคำสั่งและแบบประกาศมีดังนี้

นอกจากนี้ คุณยังตรวจสอบและสำรวจซอร์สโค้ดของเดโมได้ใน GitHub

จำลองแชทของตัวแทนด้วยส่วนขยายเครื่องมือตรวจสอบ

ติดตั้งส่วนขยายเครื่องมือตรวจสอบบริบทของโมเดลเพื่อทดลองใช้เอเจนต์และดูว่าเครื่องมือ WebMCP ทำงานอย่างไรในการสาธิตแบบสดหรือแอปพลิเคชันของคุณเอง คุณป้อนพรอมต์ภาษาธรรมชาติเพื่อดูว่าเอเจนต์โต้ตอบกับเครื่องมือ WebMCP ได้อย่างถูกต้องหรือไม่

ส่วนขยายนี้ช่วยให้คุณทำสิ่งต่อไปนี้ได้

  • ดูว่าเครื่องมือใดลงทะเบียนไว้ในหน้าเว็บโดยการตรวจสอบ navigator.modelContext API
  • เรียกใช้เครื่องมือและฟังก์ชันด้วยตนเอง
  • ตรวจสอบว่าได้กำหนดสคีมา JSON อย่างถูกต้องและเบราว์เซอร์สามารถแยกวิเคราะห์ ข้อมูลตามที่เครื่องมือคาดไว้
  • ดูเอาต์พุตที่มีโครงสร้างหรือข้อความแสดงข้อผิดพลาดที่เครื่องมือส่งคืนเพื่อให้แน่ใจว่า เขียนอย่างชัดเจนและจัดรูปแบบอย่างถูกต้อง เพื่อให้ตัวแทนเข้าใจ

พูดคุยกับเอเจนต์โดยใช้ภาษาธรรมชาติเพื่อดูว่าเอเจนต์ระบุและเรียกใช้เครื่องมือ WebMCP ที่เหมาะสมได้อย่างถูกต้องหรือไม่ ระบบจะส่งพรอมต์ของคุณไปยังโมเดล gemini-2.5-flash

มีส่วนร่วมและแชร์ความคิดเห็น

WebMCP อยู่ระหว่างการหารืออย่างต่อเนื่องและอาจมีการเปลี่ยนแปลงในอนาคต หากคุณลองใช้ API เหล่านี้และมีความคิดเห็น โปรดส่งมาให้เรา