Tìm hiểu về tính năng quản lý mô hình tích hợp trong Chrome

Ngày xuất bản: 21 tháng 10 năm 2025

Các tính năng AI tích hợp được hỗ trợ bởi các mô hình nền tảng và mô hình chuyên gia được thiết kế để hoạt động liền mạch cho cả người dùng và nhà phát triển. Khi bạn sử dụng một API AI tích hợp, quá trình quản lý mô hình sẽ tự động diễn ra ở chế độ nền. Tài liệu này mô tả cách Chrome xử lý quá trình tải, cập nhật và xoá mô hình AI.

Tải mô hình ban đầu

Khi người dùng tải hoặc cập nhật Chrome, mô hình sẽ được tải theo yêu cầu để đảm bảo Chrome tải đúng mô hình cho phần cứng của người dùng. Quá trình tải mô hình ban đầu được kích hoạt bằng lệnh gọi đầu tiên đến *.create() hàm (ví dụ: Summarizer.create()) của bất kỳ API AI tích hợp nào phụ thuộc vào Gemini Nano. Khi điều này xảy ra, Chrome sẽ chạy một loạt các bước kiểm tra để xác định phương án hành động tốt nhất. Trước tiên, Chrome ước tính hiệu suất GPU của thiết bị bằng cách chạy một trình đổ bóng đại diện. Dựa trên những kết quả này, Chrome sẽ quyết định:

  • Tải một biến thể Gemini Nano lớn hơn, có nhiều tính năng hơn (chẳng hạn như 4 tỷ tham số).
  • Tải một biến thể Gemini Nano nhỏ hơn, hiệu quả hơn (chẳng hạn như 2 tỷ tham số).
  • Quay lại suy luận dựa trên CPU nếu thiết bị đáp ứng các yêu cầu tĩnh riêng biệt. Nếu thiết bị không đáp ứng các yêu cầu về phần cứng, mô hình sẽ không được tải xuống.

Quá trình tải xuống được xây dựng để có khả năng phục hồi:

  • Nếu kết nối Internet bị gián đoạn, quá trình tải xuống sẽ tiếp tục từ nơi bị gián đoạn sau khi kết nối được khôi phục.
  • Nếu thẻ kích hoạt quá trình tải xuống bị đóng, quá trình tải xuống sẽ tiếp tục ở chế độ nền.
  • Nếu trình duyệt bị đóng, quá trình tải xuống sẽ tiếp tục vào lần khởi động lại tiếp theo, miễn là trình duyệt mở trong vòng 30 ngày.

Đôi khi, việc gọi availability() có thể kích hoạt quá trình tải mô hình xuống. Điều này xảy ra nếu lệnh gọi diễn ra ngay sau khi một hồ sơ người dùng mới khởi động và nếu tính năng phát hiện hành vi lừa đảo do Gemini Nano hỗ trợ đang hoạt động.

Tải trọng số LoRA xuống

Một số API, chẳng hạn như API Trình kiểm lỗi chính tả, dựa vào trọng số Thích ứng cấp thấp (LoRA) được áp dụng cho mô hình cơ sở để chuyên biệt hoá chức năng của mô hình đó. Nếu API phụ thuộc vào LoRA, thì trọng số LoRA sẽ được tải xuống cùng với mô hình cơ sở. Trọng số LoRA cho các API khác không được tải xuống một cách chủ động.

Tự động cập nhật mô hình

Các bản cập nhật mô hình Gemini Nano được phát hành thường xuyên. Chrome kiểm tra các bản cập nhật này khi trình duyệt khởi động. Ngoài ra, Chrome kiểm tra các bản cập nhật cho các tài nguyên bổ sung, chẳng hạn như trọng số LoRA, hằng ngày. Mặc dù bạn không thể truy vấn phiên bản mô hình theo lập trình từ JavaScript, nhưng bạn có thể kiểm tra thủ công phiên bản được cài đặt trên chrome://on-device-internals. Quá trình cập nhật được thiết kế để hoạt động liền mạch và không gây gián đoạn:

  • Chrome tiếp tục hoạt động với mô hình hiện tại trong khi tải phiên bản mới xuống ở chế độ nền.
  • Sau khi tải mô hình cập nhật xuống, mô hình này sẽ được hoán đổi nóng, nghĩa là các mô hình được chuyển đổi mà không có thời gian ngừng hoạt động. Mọi lệnh gọi API AI mới sẽ sử dụng ngay mô hình mới. Lưu ý: Có thể xảy ra trường hợp lời nhắc chạy vào đúng thời điểm hoán đổi sẽ không thành công.
  • Mỗi bản cập nhật là một quá trình tải mô hình mới hoàn toàn, chứ không phải là quá trình tải một phần. Điều này là do trọng số mô hình có thể khác biệt đáng kể giữa các phiên bản và việc tính toán cũng như áp dụng các delta cho các tệp lớn như vậy có thể diễn ra chậm.

Các bản cập nhật phải tuân theo các yêu cầu giống như quá trình tải xuống ban đầu. Tuy nhiên, quá trình kiểm tra dung lượng đĩa ban đầu sẽ được miễn nếu một mô hình đã được cài đặt. Bạn cũng có thể cập nhật trọng số LoRA. Bạn có thể áp dụng phiên bản mới của trọng số LoRA cho một mô hình cơ sở hiện có. Tuy nhiên, phiên bản mô hình cơ sở mới luôn yêu cầu một tập hợp trọng số LoRA mới.

Xoá mô hình

Chrome chủ động quản lý dung lượng đĩa để đảm bảo người dùng không hết dung lượng. Mô hình Gemini Nano sẽ tự động bị xoá nếu dung lượng đĩa trống của thiết bị giảm xuống dưới một ngưỡng nhất định. Ngoài ra, mô hình sẽ bị xoá nếu một chính sách dành cho doanh nghiệp vô hiệu hoá tính năng này hoặc nếu người dùng không đáp ứng các tiêu chí khác về điều kiện sử dụng trong 30 ngày. Điều kiện sử dụng có thể bao gồm việc sử dụng API và khả năng của thiết bị. Quá trình xoá có các đặc điểm sau:

  • Bạn có thể xoá mô hình bất cứ lúc nào, ngay cả khi đang trong phiên, bất kể lời nhắc đang chạy. Điều này có nghĩa là một API có sẵn khi bắt đầu phiên có thể đột ngột không dùng được.
  • Sau khi bị xoá, mô hình sẽ không tự động được tải lại. Bạn phải kích hoạt quá trình tải xuống mới bằng một ứng dụng gọi hàm *.create().
  • Khi mô hình cơ sở bị xoá, mọi trọng số LoRA có liên quan cũng sẽ bị xoá sau thời gian ân hạn 30 ngày.

Vai trò của bạn trong việc quản lý mô hình

Việc hiểu rõ vòng đời của mô hình AI tích hợp là yếu tố then chốt để mang lại trải nghiệm phù hợp cho người dùng. Bạn không chỉ tải mô hình xuống một lần mà còn cần lưu ý đến khả năng mô hình đột ngột biến mất trở lại do áp lực về dung lượng đĩa hoặc mô hình được cập nhật khi có phiên bản mới. Trình duyệt sẽ xử lý tất cả những điều này.

Bằng cách tuân theo các phương pháp hay nhất về việc tải mô hình xuống, bạn sẽ mang lại trải nghiệm tốt cho người dùng trong quá trình tải xuống ban đầu, tải lại và cập nhật.