Trường hợp sử dụng WebMCP và MCP

Xuất bản: Ngày 11 tháng 3 năm 2026

Vào tháng 2, chúng tôi đã thông báo rằng WebMCP có trong chương trình xem trước sớm. Khi các tác nhân AI ngày càng phổ biến trong trình duyệt, chúng tôi đã nghe thấy các nhà phát triển web đặt câu hỏi này: "WebMCP có thay thế Giao thức ngữ cảnh mô hình (MCP) không?"

Mặc dù tôi hiểu lý do bạn đặt câu hỏi này, nhưng câu hỏi này dựa trên sự hiểu lầm. Bạn không cần phải chọn giữa MCP và WebMCP để tạo trải nghiệm dựa trên tác nhân. WebMCP không phải là một tiện ích hoặc một phiên bản thay thế của MCP. Thay vào đó, WebMCP và MCP đáp ứng các nhu cầu khác nhau. WebMCP cho phép bạn làm rõ mục đích của các tính năng ứng dụng và cung cấp cho tác nhân trình duyệt các chức năng bổ sung để tương tác với trang web của bạn.

Một ví dụ tương tự là sự khác biệt giữa trung tâm cuộc gọi dịch vụ khách hàng của một công ty và chuyên gia tại cửa hàng.

  • MCP có trên mọi nền tảng và bất cứ lúc nào. Công cụ này có thể truy xuất dữ liệu và xử lý các tác vụ cốt lõi khi cần.
  • WebMCP chỉ có trên trang web của bạn. Các trang web thường là giao diện người dùng (UI) được thiết kế cho con người chứ không phải máy móc. WebMCP giúp các tác nhân hiểu rõ hơn về giao diện người dùng.

Nhờ đó, các tác nhân có thể thay mặt người dùng hoàn thành các tác vụ được cá nhân hoá.

Chức năng và mục đích

Cả hai công nghệ này đều có cùng một triết lý: tạo ra một cách thức tiêu chuẩn và đáng tin cậy để các ứng dụng cung cấp công cụ của mình cho các tác nhân AI.

Trên thực tế, điều này bao gồm:

  • Khám phá công cụ có cấu trúc: Các công cụ này cung cấp một cách thức mà máy có thể đọc được để một tác nhân hỏi "Bạn có thể làm gì?" và nhận được danh sách rõ ràng về các công cụ hiện có, tham số và mục đích của chúng.
  • Thực thi có thể dự đoán: Chúng thay thế việc phỏng đoán bằng các lệnh gọi hàm rõ ràng. Một tác nhân gọi một công cụ được xác định. Điều này dẫn đến kết quả có thể dự đoán được, không giống như việc mô phỏng một mẫu nhấp chuột có thể thay đổi.
  • Ý định rõ ràng: Họ khai báo rõ ràng các chức năng. Nếu không có WebMCP và MCP, các tác nhân sẽ đoán xem nên thực hiện hành động nào dựa trên sự hiểu biết về giao diện người dùng. Với WebMCP và MCP, các tác nhân có thể biết chắc chắn cách một tính năng nhất định hoạt động mà không cần suy luận các thao tác từ các phần tử trên giao diện người dùng.

Điểm khác biệt chính giữa hai loại này là nơi đặt chức năng của ứng dụng.

MCP dành cho phần phụ trợ

Giao thức ngữ cảnh mô hình (MCP) là một tiêu chuẩn kết nối các tác nhân AI (cho dù dựa trên trình duyệt hay không) với các hệ thống bên ngoài, bao gồm nguồn dữ liệu, công cụ và quy trình làm việc. Giao thức này là giao thức phổ biến, thường dùng JSON-RPC và được triển khai thông qua các SDK dành riêng cho ngôn ngữ, chẳng hạn như Rust, Python và TypeScript.

WebMCP là dành cho giao diện người dùng

WebMCP là một tiêu chuẩn trình duyệt được đề xuất với 2 API chỉ tương tác với một tác nhân tích hợp của trình duyệt. Bạn có thể triển khai các API này bằng JavaScript hoặc thuộc tính HTML. Trình duyệt đóng vai trò là công cụ giao tiếp giữa trang web của bạn và nhân viên hỗ trợ.

Hãy coi WebMCP là một tập hợp các API "lấy cảm hứng từ MCP" thay vì một cách triển khai MCP trực tiếp bằng JavaScript. WebMCP được thiết kế riêng cho trình duyệt và bỏ qua nhiều khái niệm phía máy chủ, chẳng hạn như tài nguyên.

Kiểm soát cách các nhân viên hỗ trợ truy cập vào trang web của bạn

WebMCP cho phép bạn kiểm soát cách các tác nhân tương tác với trang web của bạn. Việc này có một số lợi ích chính như sau:

  • Tốc độ và độ tin cậy: Vì WebMCP sử dụng các hệ thống nội bộ của trình duyệt, nên hoạt động giao tiếp giữa máy khách và công cụ này diễn ra gần như tức thì. Bạn không phải đợi một chuyến khứ hồi đến máy chủ từ xa.
  • Được thiết kế để tồn tại lâu dài: Các công cụ WebMCP kết nối với logic ứng dụng chứ không phải thiết kế. Điều này có nghĩa là bạn có thể thiết kế lại trang web mà không làm ảnh hưởng đến khả năng tương tác chính xác của một tác nhân với trang web đó.
  • Bạn nắm quyền kiểm soát: Bạn xác định rõ cách mà bạn muốn một tác nhân tương tác với trang web của mình, thay vì hy vọng tác nhân tìm thấy nút phù hợp để nhấp vào. Bạn xác định logic của ứng dụng theo cách mà tác nhân có thể hiểu được, hướng dẫn tác nhân trực tiếp thay vì hy vọng tác nhân suy luận các hành động từ giao diện người dùng.

Kiểm soát quyền truy cập vào giao diện người dùng

Để hiểu rõ sự khác biệt, hãy xem xét câu hỏi "Ai sở hữu giao diện người dùng?" Các ứng dụng MCP hiển thị giao diện người dùng của ứng dụng trong giao diện người dùng của các tác nhân. Giao diện của bạn phải tuân thủ các quy tắc ràng buộc này và cần có một ứng dụng mới, riêng biệt.

WebMCP giúp nhân viên hỗ trợ tương tác với trang web hiện có của bạn theo thời gian thực. Công cụ này có thể truy cập vào dữ liệu phiên trực tiếp, cookie và các phần tử DOM chỉ có trong thẻ trình duyệt đang hoạt động. Thay vì ứng dụng của bạn là khách trong một tác nhân, thì tác nhân lại là khách trên nền tảng của bạn.

Điều quan trọng là các công cụ WebMCP chỉ tồn tại trong thời gian ngắn. Chúng chỉ tồn tại khi trang của bạn đang mở. Sau khi người dùng rời khỏi trang web của bạn hoặc đóng thẻ, tác nhân sẽ không thể truy cập vào trang web của bạn hoặc thực hiện hành động nữa.

Sử dụng WebMCP và MCP

Khi chọn giải pháp phù hợp cho các tính năng hoặc chức năng cụ thể, hãy cân nhắc bối cảnh và phạm vi cung cấp:

  MCP WebMCP
Mục đích Cung cấp dữ liệu và hành động cho nhân viên hỗ trợ mọi lúc, mọi nơi. Giúp trang web đang hoạt động sẵn sàng tương tác ngay lập tức với nhân viên hỗ trợ khi người dùng truy cập vào trang web.
Lifecycle Liên tục (máy chủ và trình nền) Tạm thời (gắn với thẻ)
Khả năng kết nối Toàn cầu (máy tính, thiết bị di động, đám mây, web) Dành riêng cho môi trường (tác nhân trình duyệt)
Tương tác với giao diện người dùng Không có giao diện người dùng và bên ngoài Tích hợp với trình duyệt và nhận biết DOM
Khám phá Quy trình đăng ký dành riêng cho từng tác nhân Các công cụ được đăng ký trên trang web trong thời gian người dùng truy cập.
Trường hợp sử dụng Thực hiện các thao tác API trong nền. Điều hướng và thực hiện trên giao diện người dùng web trực tiếp.

Các ứng dụng tác nhân hiệu quả nhất sử dụng cả MCP và WebMCP để tận dụng điểm mạnh của cả hai công nghệ.

  1. Quản lý logic cốt lõi bằng MCP: Máy chủ MCP của bạn đóng vai trò là một lớp dịch vụ cơ bản. Nó xử lý logic nghiệp vụ cốt lõi, việc truy xuất dữ liệu và các tác vụ ở chế độ nền. Điều này đảm bảo dịch vụ của bạn không phụ thuộc vào nền tảng và luôn có sẵn cho các tác nhân.
  2. Xây dựng giao diện người dùng theo bối cảnh bằng WebMCP: WebMCP là bước cuối cùng, một kết nối cho các tác nhân trực tiếp với trang web của bạn. Đây là một tính năng được thiết kế cho các hoạt động tương tác theo bối cảnh, trong trình duyệt, cho phép một nhân viên hỗ trợ hành động thay cho người dùng một cách nhanh chóng và đáng tin cậy trong khi người dùng mở trang web của bạn.

Hãy coi MCP và WebMCP là đối tác chứ không phải đối thủ. WebMCP cung cấp một cách có độ trung thực cao để một tác nhân AI dựa trên trình duyệt tương tác với thế giới cụ thể mà người dùng nhìn thấy trong thẻ của họ.

Tiếp theo là gì?

Bạn đã sẵn sàng để trang web của mình có thể sử dụng được với các trợ lý ảo chưa? Bạn có thể bắt đầu thử nghiệm với WebMCP ngay hôm nay bằng cách tham gia Chương trình dùng thử sớm.

Ý kiến phản hồi của bạn rất quan trọng trong việc định hình tương lai của tiêu chuẩn này.