Ngày xuất bản: 21 tháng 10 năm 2025
Các tính năng AI tích hợp sẵn dựa trên Gemini Nano được thiết kế để mang lại trải nghiệm liền mạch cho cả người dùng và nhà phát triển. Khi bạn sử dụng một API AI tích hợp, hoạt động quản lý mô hình sẽ tự động diễn ra ở chế độ nền. Tài liệu này mô tả cách Chrome xử lý việc tải xuống, cập nhật và xoá mô hình Gemini Nano.
Tải mô hình ban đầu xuống
Khi người dùng tải xuống hoặc cập nhật Chrome, Gemini Nano sẽ được tải xuống theo yêu cầu để đảm bảo Chrome tải xuống đúng mô hình cho phần cứng của người dùng.
Lần tải mô hình ban đầu được kích hoạt bằng lệnh gọi đầu tiên đến một hàm *.create()
(ví dụ: Summarizer.create()
) của bất kỳ API AI tích hợp sẵn nào phụ thuộc vào Gemini Nano. Khi điều này xảy ra, Chrome sẽ chạy một loạt quy trình kiểm tra để xác định hướng hành động hiệu quả nhất.
Trước tiên, Chrome ước tính hiệu suất GPU của thiết bị bằng cách chạy một chương trình đổ bóng đại diện. Dựa trên những kết quả này, hệ thống sẽ quyết định:
- Tải một biến thể Gemini Nano lớn hơn và có nhiều tính năng hơn xuống (chẳng hạn như 4 tỷ tham số).
- Tải một biến thể Gemini Nano nhỏ hơn và hiệu quả hơn xuống (chẳng hạn như 2 tỷ tham số).
- Quay lại suy luận dựa trên CPU nếu thiết bị đáp ứng các yêu cầu riêng biệt về trạng thái. Nếu thiết bị không đáp ứng các yêu cầu về phần cứng, thì mô hình sẽ không được tải xuống.
Quy trình tải xuống được thiết kế để có khả năng phục hồi:
- Nếu kết nối Internet bị gián đoạn, quá trình tải xuống sẽ tiếp tục từ điểm dừng khi kết nối được khôi phục.
- Nếu thẻ kích hoạt quá trình tải xuống bị đóng, thì quá trình tải xuống sẽ tiếp tục trong nền.
- Nếu trình duyệt bị đóng, quá trình tải xuống sẽ tiếp tục vào lần khởi động lại tiếp theo, miễn là trình duyệt mở trong vòng 30 ngày.
Đôi khi, việc gọi availability()
có thể kích hoạt quá trình tải mô hình xuống. Điều này xảy ra nếu cuộc gọi diễn ra ngay sau khi một hồ sơ người dùng mới khởi động và nếu tính năng phát hiện hành vi lừa đảo dựa trên Gemini Nano đang hoạt động.
Tải trọng số LoRA xuống
Một số API, chẳng hạn như Proofreader API, dựa vào các trọng số Thích ứng thứ hạng thấp (LoRA) được áp dụng cho mô hình cơ sở để chuyên biệt hoá chức năng của mô hình. Nếu API phụ thuộc vào LoRA, thì các trọng số LoRA sẽ được tải xuống cùng với mô hình cơ sở. Trọng số LoRA cho các API khác không được tải xuống một cách chủ động.
Tự động cập nhật mô hình
Các bản cập nhật mô hình Gemini Nano được phát hành thường xuyên. Chrome sẽ kiểm tra các bản cập nhật này khi trình duyệt khởi động. Ngoài ra, Chrome kiểm tra các bản cập nhật cho các tài nguyên bổ sung (chẳng hạn như trọng số LoRA) hằng ngày. Mặc dù không thể truy vấn phiên bản mô hình theo phương thức lập trình từ JavaScript, nhưng bạn có thể kiểm tra theo cách thủ công phiên bản đã cài đặt trên chrome://on-device-internals
.
Quy trình cập nhật được thiết kế để diễn ra liền mạch và không gây gián đoạn:
- Chrome vẫn hoạt động với mô hình hiện tại trong khi tải phiên bản mới xuống ở chế độ nền.
- Sau khi tải mô hình đã cập nhật xuống, mô hình này sẽ được hoán đổi nóng, tức là các mô hình sẽ được chuyển đổi mà không có thời gian ngừng hoạt động. Mọi lệnh gọi API AI mới sẽ sử dụng ngay mô hình mới. Lưu ý: Có thể lời nhắc đang chạy vào đúng thời điểm hoán đổi sẽ không thành công.
- Mỗi bản cập nhật là một bản tải xuống mô hình mới hoàn chỉnh, chứ không phải bản tải xuống một phần. Điều này là do trọng số mô hình có thể khác biệt đáng kể giữa các phiên bản và việc tính toán cũng như áp dụng các phần chênh lệch cho những tệp lớn như vậy có thể diễn ra chậm.
Bản cập nhật phải tuân thủ các yêu cầu tương tự như bản tải xuống ban đầu. Tuy nhiên, bước kiểm tra dung lượng ổ đĩa ban đầu sẽ được bỏ qua nếu một mô hình đã được cài đặt. Bạn cũng có thể cập nhật trọng số LoRA. Bạn có thể áp dụng phiên bản mới của trọng số LoRA cho một mô hình cơ sở hiện có. Tuy nhiên, phiên bản mô hình cơ sở mới luôn yêu cầu một bộ trọng số LoRA mới.
Xoá mô hình
Chrome chủ động quản lý dung lượng ổ đĩa để đảm bảo người dùng không bị hết dung lượng. Mô hình Gemini Nano sẽ tự động bị xoá nếu dung lượng trống trên ổ đĩa của thiết bị giảm xuống dưới một ngưỡng nhất định. Ngoài ra, mẫu giọng nói sẽ bị xoá nếu chính sách doanh nghiệp tắt tính năng này hoặc nếu người dùng không đáp ứng các tiêu chí khác trong vòng 30 ngày. Điều kiện có thể bao gồm việc sử dụng API và khả năng của thiết bị. Quy trình xoá có các đặc điểm sau:
- Bạn có thể xoá mô hình bất cứ lúc nào, ngay cả khi đang trong phiên, mà không cần quan tâm đến các câu lệnh đang chạy. Điều này có nghĩa là một API có sẵn khi bắt đầu phiên có thể đột ngột không dùng được nữa.
- Sau khi bị xoá, mô hình sẽ không tự động tải xuống lại. Ứng dụng gọi hàm
*.create()
phải kích hoạt một lượt tải xuống mới. - Khi mô hình cơ sở bị xoá, mọi trọng số LoRA có liên quan cũng sẽ bị xoá sau thời gian ân hạn 30 ngày.
Vai trò của bạn trong việc quản lý mô hình
Việc hiểu rõ vòng đời của mô hình AI tích hợp là yếu tố then chốt để mang lại trải nghiệm phù hợp cho người dùng. Bạn không chỉ cần tải mô hình xuống một lần mà còn phải lưu ý đến khả năng mô hình đột ngột biến mất trở lại do áp lực về dung lượng ổ đĩa hoặc mô hình được cập nhật khi có phiên bản mới. Trình duyệt sẽ xử lý tất cả những việc này.
Bằng cách làm theo các phương pháp hay nhất về việc tải mô hình xuống, bạn sẽ mang lại trải nghiệm tốt cho người dùng trong lần tải xuống ban đầu, tải xuống lại và cập nhật.