了解 Chrome 中的内置模型管理

发布时间:2025 年 10 月 21 日

由 Gemini Nano 提供支持的内置 AI 功能旨在为用户和开发者带来顺畅体验。使用内置 AI API 时,模型管理会在后台自动进行。本文档介绍了 Chrome 如何处理 Gemini Nano 模型的下载、更新和清除。

初始模型下载

当用户下载或更新 Chrome 时,系统会按需下载 Gemini Nano,以确保 Chrome 下载适合用户硬件的正确模型。 首次调用任何依赖于 Gemini Nano 的内置 AI API*.create() 函数(例如 Summarizer.create())时,系统会触发初始模型下载。发生这种情况时,Chrome 会运行一系列检查来确定最佳行动方案。 首先,Chrome 会运行一个代表性着色器来估计设备的 GPU 性能。根据这些结果,它会决定执行以下任一操作:

  • 下载更大、更强大的 Gemini Nano 变体(例如 40 亿参数)。
  • 下载更小、更高效的 Gemini Nano 变体(例如 20 亿参数)。
  • 如果设备满足单独的静态要求,则回退到基于 CPU 的推理。如果设备不满足硬件要求,则不会下载模型。

下载流程旨在实现弹性:

  • 如果网络连接中断,下载操作会在连接恢复后从中断的地方继续进行。
  • 如果触发下载的标签页已关闭,下载会在后台继续进行。
  • 如果浏览器已关闭,只要浏览器在 30 天内打开,下载就会在下次重新启动时继续进行。

有时,调用 availability() 会触发模型下载。如果通话发生在全新用户个人资料启动后不久,并且由 Gemini Nano 提供支持的诈骗检测功能处于有效状态,则会发生这种情况。

LoRA 权重下载

某些 API(例如 Proofreader API)依赖于应用于基础模型的低秩自适应 (LoRA) 权重,以实现其功能专业化。如果 API 依赖于 LoRA,则 LoRA 权重会与基础模型一起下载。不会主动下载其他 API 的 LoRA 权重。

自动更新模型

我们会定期发布 Gemini Nano 模型更新。Chrome 会在浏览器启动时检查这些更新。此外,Chrome 每天都会检查是否有补充资源(例如 LoRA 权重)更新。虽然您无法通过编程方式从 JavaScript 查询模型版本,但可以手动检查 chrome://on-device-internals 上安装的版本。 更新过程旨在实现无缝且不中断:

  • Chrome 会在后台下载新版本的同时,继续使用当前模型运行。
  • 下载更新后的模型后,系统会进行热交换,这意味着模型切换不会停机。任何新的 AI API 调用都会立即使用新模型。 注意:在交换的确切时刻运行的提示可能会失败。
  • 每次更新都是完整的全新模型下载,而不是部分下载。这是因为不同版本之间的模型权重可能存在显著差异,而计算和应用此类大型文件的增量可能会很慢。

更新需满足与初始下载相同的要求。不过,如果已安装模型,则可免除初始磁盘空间检查。LoRA 权重也可以更新。新版本的 LoRA 权重可以应用于现有基础模型。不过,新的基础模型版本始终需要一组新的 LoRA 权重。

模型删除

Chrome 会主动管理磁盘空间,以确保用户不会用尽磁盘空间。如果设备的可用磁盘空间降至某个阈值以下,系统会自动删除 Gemini Nano 模型。 此外,如果企业政策停用该功能,或者用户在 30 天内未满足其他资格条件,系统也会清除该模型。资格条件可能包括 API 使用情况和设备功能。 清理流程具有以下特征:

  • 您可以随时删除模型,即使是在会话中也是如此,而无需考虑正在运行的提示。这意味着,在会话开始时可用的 API 可能会突然变得不可用。
  • 清除后,系统不会自动重新下载该模型。必须通过应用调用 *.create() 函数来触发新的下载。
  • 当基础模型被清除时,任何相关的 LoRA 权重也会在 30 天的宽限期后被清除。

您在模型管理中的角色

充分了解内置 AI 模型的生命周期对于提供良好的用户体验至关重要。您不仅需要下载模型一次,还需要注意以下情况:在磁盘空间不足的情况下,模型可能会突然再次消失;或者在新版本发布时,模型可能会更新。这些都由浏览器负责处理。

遵循有关下载模型的最佳实践,您将能够在初始下载、重新下载和更新时打造良好的用户体验。