发布时间:2025 年 10 月 21 日
由 Gemini Nano 提供支持的内置 AI 功能旨在为用户和开发者带来顺畅体验。使用内置 AI API 时,模型管理会在后台自动进行。本文档介绍了 Chrome 如何处理 Gemini Nano 模型的下载、更新和清除。
初始模型下载
当用户下载或更新 Chrome 时,系统会按需下载 Gemini Nano,以确保 Chrome 下载适合用户硬件的正确模型。
首次调用任何依赖于 Gemini Nano 的内置 AI API 的 *.create()
函数(例如 Summarizer.create()
)时,系统会触发初始模型下载。发生这种情况时,Chrome 会运行一系列检查来确定最佳行动方案。
首先,Chrome 会运行一个代表性着色器来估计设备的 GPU 性能。根据这些结果,它会决定执行以下任一操作:
- 下载更大、更强大的 Gemini Nano 变体(例如 40 亿参数)。
- 下载更小、更高效的 Gemini Nano 变体(例如 20 亿参数)。
- 如果设备满足单独的静态要求,则回退到基于 CPU 的推理。如果设备不满足硬件要求,则不会下载模型。
下载流程旨在实现弹性:
- 如果网络连接中断,下载操作会在连接恢复后从中断的地方继续进行。
- 如果触发下载的标签页已关闭,下载会在后台继续进行。
- 如果浏览器已关闭,只要浏览器在 30 天内打开,下载就会在下次重新启动时继续进行。
有时,调用 availability()
会触发模型下载。如果通话发生在全新用户个人资料启动后不久,并且由 Gemini Nano 提供支持的诈骗检测功能处于有效状态,则会发生这种情况。
LoRA 权重下载
某些 API(例如 Proofreader API)依赖于应用于基础模型的低秩自适应 (LoRA) 权重,以实现其功能专业化。如果 API 依赖于 LoRA,则 LoRA 权重会与基础模型一起下载。不会主动下载其他 API 的 LoRA 权重。
自动更新模型
我们会定期发布 Gemini Nano 模型更新。Chrome 会在浏览器启动时检查这些更新。此外,Chrome 每天都会检查是否有补充资源(例如 LoRA 权重)更新。虽然您无法通过编程方式从 JavaScript 查询模型版本,但可以手动检查 chrome://on-device-internals
上安装的版本。
更新过程旨在实现无缝且不中断:
- Chrome 会在后台下载新版本的同时,继续使用当前模型运行。
- 下载更新后的模型后,系统会进行热交换,这意味着模型切换不会停机。任何新的 AI API 调用都会立即使用新模型。 注意:在交换的确切时刻运行的提示可能会失败。
- 每次更新都是完整的全新模型下载,而不是部分下载。这是因为不同版本之间的模型权重可能存在显著差异,而计算和应用此类大型文件的增量可能会很慢。
更新需满足与初始下载相同的要求。不过,如果已安装模型,则可免除初始磁盘空间检查。LoRA 权重也可以更新。新版本的 LoRA 权重可以应用于现有基础模型。不过,新的基础模型版本始终需要一组新的 LoRA 权重。
模型删除
Chrome 会主动管理磁盘空间,以确保用户不会用尽磁盘空间。如果设备的可用磁盘空间降至某个阈值以下,系统会自动删除 Gemini Nano 模型。 此外,如果企业政策停用该功能,或者用户在 30 天内未满足其他资格条件,系统也会清除该模型。资格条件可能包括 API 使用情况和设备功能。 清理流程具有以下特征:
- 您可以随时删除模型,即使是在会话中也是如此,而无需考虑正在运行的提示。这意味着,在会话开始时可用的 API 可能会突然变得不可用。
- 清除后,系统不会自动重新下载该模型。必须通过应用调用
*.create()
函数来触发新的下载。 - 当基础模型被清除时,任何相关的 LoRA 权重也会在 30 天的宽限期后被清除。
您在模型管理中的角色
充分了解内置 AI 模型的生命周期对于提供良好的用户体验至关重要。您不仅需要下载模型一次,还需要注意以下情况:在磁盘空间不足的情况下,模型可能会突然再次消失;或者在新版本发布时,模型可能会更新。这些都由浏览器负责处理。
遵循有关下载模型的最佳实践,您将能够在初始下载、重新下载和更新时打造良好的用户体验。