改进 Gemini Nano:利用 LoRA 提供更高质量的摘要

发布时间:2025 年 5 月 21 日

总结是使用大语言模型 (LLM) 进行的最常见且最重要的 AI 任务之一。摘要是快速了解大量内容(从冗长的文章和密集的聊天记录到众多评价)的重要方式,可节省时间、提高效率,并让您能够更快地做出更明智的决策。

摘要有多种类型,详细程度和格式要求各不相同。为了满足各种摘要类型的预期,Chrome 与 Google Cloud 合作改进了 Gemini Nano 的输出。

我们使用低秩适应 (LoRA) 微调了 Gemini Nano,以便针对所有摘要样式和长度提升体验和输出质量。此外,我们还针对摘要质量的不同方面(包括事实性、覆盖面、格式和可读性)实现了自动自动评分器评估。

我们通过可视化的方式展示了这种差异在实际中的表现。您可以试用此实现,并查看实时演示,比较 Gemini Nano 和 Gemini Nano with LoRA 的输出。

什么是 Summarizer API?

说明类视频 Web 扩展程序 Chrome 状态 意向
MDN Chrome 138 Chrome 138 视图 发货意图

Summarizer API 可将冗长的文本内容浓缩为简短易懂的摘要。该 API 内置于 Chrome 中,并使用 Gemini Nano 执行推理。

不同的网站可能要求摘要采用各种样式和长度。例如,如果您是新闻网站,则可能需要在文章中提供要点的要点的项目符号列表。或者,浏览商品评价的用户可以通过简短的评价情感摘要受益。为演示起见,我们总结了 Wikipedia 上关于威尔士柯基犬的页面,并将长度设置为 short

摘要类型 输出
headline ## 威尔士柯基犬:皇家犬和牧羊犬的历史
key-points * 威尔士柯基犬是一种起源于威尔士的小型牧羊犬。
* 主要有两种品种:彭布罗克威尔士柯基犬和卡迪根威尔士柯基犬。
* Pembroke 更受欢迎,与英国皇室有联系。
tldr 威尔士柯基犬是一种小型牧羊犬,在威尔士和英国皇室中历史悠久。这种犬有两种类型:彭布罗克和卡迪根,它们都以狐狸般的面孔、短腿和牧羊本能而闻名。
teaser 探索威尔士柯基犬的历史,从其作为威尔士农民的牧羊犬的卑微起源,到成为英国皇室象征的崛起。

您可以使用 Summarizer API Playground 试用其他网页。

对微调进行实验

138.0.7180.0 版开始,微调功能仅作为 Chrome Canary 中的标志提供。如需使用此模型,请执行以下操作:

  1. 打开 Chrome Canary
  2. 转到 chrome://flags/#summarization-api-for-gemini-nano
  3. 选择已启用(有自适应功能)
  4. 重启浏览器。
  5. 打开开发者工具 控制台,然后输入 Summarizer.availability()。这会开始下载补充 LoRA。

下载完成后,您就可以开始进行实验了。

评估总结器的性能

我们主要使用两种评估方法(自动autorater)来衡量经过微调的 Gemini Nano 的性能提升。微调有助于模型更好地执行特定任务,例如:

  • 更好地翻译医学文本。
  • 生成特定艺术风格的图片。
  • 了解新俚语。

在本例中,我们希望更好地满足每种摘要类型的预期。

自动评估

自动评估使用软件来判断模型的输出质量。我们使用此技术在英语输入内容的摘要中搜索格式错误、重复的句子以及非英语字符。

  • 格式错误:我们会检查摘要回答是否遵循了问题的格式说明。例如,对于简短的要点样式,我们会检查每个项目符号是否以星号 (*) 开头,以及项目符号的数量是否不超过 3 个。

  • 重复使用同一句子:我们会检查单个摘要回答中是否重复使用了同一句子,因为这表示回答质量较差。

  • 非英文字符:如果输入内容应为英语,我们会检查响应中是否包含非英文字符。

  • 输出中的超链接:我们会检查响应中是否存在输入中不存在的 Markdown 格式或纯文本超链接。

我们评估了两种输入内容:抓取的文章和聊天记录。

  标题 TLDR 要点 宣传片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
格式错误 13.54% / 7.05% 41.07% / 4.61% 12.58% / 6.36% 51.17% / 6.74%
重复句子 0.07% / 0.07% 0.21% / 0.0% 0.10% / 0.10% 0.10% / 0.03%
非英语错误 3.95% / 0.03% 1.38% / 0.0% 2.41% / 0.03% 1.44% / 0.0%
超链接 0.07% / 0.0% 0.14% / 0.0% 0.14% / 0.0% 0.34% / 0.0%
对 970 篇不同摘要类型的文章进行了自动评估。
  Headline TLDR 要点 预告片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
格式错误 13.17% / 0.24% 22.92% / 0.18% 4.43% / 0.09% 29.64% / 3.51%
重复句子 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.03% / 0.0%
非英语错误 0.15% / 0.0% 0.15% / 0.0% 0.03% / 0.0% 0.06% / 0.0%
超链接 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0%
对 1091 条聊天条目样本进行的自动评估。

优化 Gemini Nano 后,我们发现不同类型的摘要(文章和聊天记录)的格式错误率显著降低。

自动评估器评估

我们使用 Gemini 1.5 Pro 进行了自动评估,以评判 Gemini Nano 的输出质量。由于每种摘要都有不同的用途,因此不同摘要类型的条件和条件值也不同。我们对所有摘要类型进行了评估,以确保:

  • 覆盖率:摘要是否准确捕捉了输入内容的根本用途?
  • 真实性:摘要是否真实?摘要是否引入了文本中未明确说明或暗示的新信息?
  • 格式:摘要的格式是否采用了有效的 Markdown 语法?摘要是否遵循了要求的句子长度上限?
  • 清晰度:摘要是否重复?摘要是否以尽可能少的字词准确传达了核心信息?

由于这些摘要类型的用途不同,因此特定摘要类型适用额外的指标:

  • 互动度:(headline):一般观众能否立即理解摘要?摘要的措辞是否能吸引普通观众并激发他们的兴趣?
  • 简洁明了 (tldr):对于注意力时间非常短的用户,摘要是否清晰、简洁且能够立即理解?它是否能有效地将核心信息提炼成易于理解的形式,以便读者快速阅读?
  • 诱惑力 (teaser):摘要能否有效地激发读者的兴趣,并鼓励他们阅读完整文本以了解更多信息?其用词是否吸引人,并暗示有趣的内容?

我们使用自动评估器并排比较了基准模型和使用 LoRA 的模型的输出。自动评分器的分数介于 0 到 1 之间,然后根据阈值进行评估。

为了确保结果有依据,我们减少了数据方差并缓解了位置偏差。

  • 减少数据方差:由于独立运行可能会产生略有不同的结果,因此我们对每个输入的三个独立输出的得分进行了平均。我们对基准模型和微调后的 Gemini Nano 的输出进行了平均。虽然各个输出的得分差异很小,但平均值有助于我们更可靠地了解大量数据。
  • 减少位置偏差:为避免优先考虑先与评价者分享的摘要的价值,我们对结果进行了两次评估,然后对最终得分进行了平均。

    1. 我们先评估了 LoRA 模型,然后评估了基准模型。
    2. 然后,我们撤消了该订单。我们先评估了基准模型,然后评估了使用 LoRA 的模型。
    3. 我们会对最终得分求平均值。
      Short 中等
      基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
    LoRA 优先 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95%
    先使用基本模型 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35%
    版本 C(平均) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65%
    key-points 摘要类型的胜出率。值越高,结果越好。

虽然同一模型的输出得分差异不大,但平均值有助于我们更可靠地了解大量数据。

在 500 篇文章中,经过微调的 Gemini Nano 的表现明显优于基准模型。

  Headline TLDR 要点 预告片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
短视频 74.74% / 89.12% 55.76% / 89.50% 71.02% / 89.18% 53.47% / 87.14%
73.10% / 87.89% 41.82% / 81.21% 69.59% / 84.08% 48.98% / 86.74%
60.99% / 89.32% 50.51% / 84.85% 63.47% / 82.65% 62.65% / 87.55%
Autorarer 在 500 篇不同摘要和长度类型的文章中的胜出率。得分越高,表示效果越好。

在对 500 条聊天记录进行评估时,我们也发现经过微调的 Gemini Nano 的效果优于基准模型。

  Headline TLDR 要点 预告片
  基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA 基准 / 使用 LoRA
Short 70.59% / 96.15% 66.27% / 97.79% 81.60% / 97.40% 67.48% / 96.14%
中等 76.67% / 95.13% 56.02% / 94.98% 82.60% / 97.20% 50.41% / 96.95%
59.03% / 94.32% 65.86% / 95.58% 75.00% / 97.60% 70.94% / 97.16%
自动评分器在 500 条聊天记录(不同摘要和长度类型)中的胜出率。得分越高,表示效果越好。

这些结果表明,我们的微调提升了摘要的整体质量。

利用 LoRA 生成更准确的摘要

传统上,微调是通过调整模型的参数来执行的。现代 AI 模型非常庞大,因此此操作速度缓慢、成本高昂,并且需要存储模型的全新副本。

我们可以添加一些额外的细节来引导模型朝着我们想要的方向发展,而不是更改所有参数,这样会怎么样?由于其体积较小,因此训练速度会更快。这是低秩自适应 (LoRA) 的核心理念。使用 LoRA 时,模型的某些部分会保持不变,这通常称为冻结参数。然后,引入一组较小的数据并进行小幅更正,将训练工作重点放在这些添加的数据上。

事实上,通常您只需使用 LoRA 训练原始参数的 2% 即可,输出结果仍会出现显著变化。

这种做法为何有效?无需更改每个模型参数,即可纳入许多行为(例如新样式、任务或知识)。这些变化可以表示为模型现有知识中的小模式或方向。LoRA 可高效捕获这些模式,而无需更改原始模型。

请查看以下一些示例,它们比较了添加 LoRA 后 Gemini Nano 基准模型与结果的差异。

我们让 Gemini Nano 为 Wikipedia 上的“约书亚树国家公园”文章创建一个简短的标题,要求该标题“能吸引注意力并传达内容的精髓”。

Gemini Nano Gemini Nano 与 LoRA
约书亚树国家公园的独特地貌和历史 约书亚树国家公园:位于加利福尼亚州,跨越沙漠,是著名树木的家园

接下来,我们让 Gemini Nano 为《Ratatouille》一文撰写了一段简短的预告片。“撰写一个诱人的单句,鼓励用户阅读完整文本。”

Gemini Nano Gemini Nano 与 LoRA
蔬菜杂烩是法国普罗旺斯地区的一道深受喜爱的菜肴,主要由炖蔬菜组成,通常包括番茄和大蒜。它的起源可追溯到 18 世纪,其制作方法也随时间推移而不断演变,有些厨师注重突出蔬菜的个别风味,而有些厨师则更喜欢口感更细腻、更统一的口感。除了法国起源之外,全世界各种菜系的类似菜肴也受到了 ratatouille 的启发,包括西班牙的 piperade 和地中海的 tian。2007 年的电影《美食总动员》进一步普及了这种菜肴,展示了其烹饪多样性和情感共鸣。 法国普罗旺斯地区的蔬菜炖菜“拉塔图”,有着丰富的烹饪历史,从简单的炖菜演变为现代烹饪杰作,吸引了全世界的食客。

实时推理演示

我们构建了一个界面,演示了 Gemini Nano 和 Gemini Nano with LoRA 之间的输出对比。

我们让 Gemini Nano 为大洋鲷一文创建了长度为 shorttldr 摘要。请注意,tldrshort 要求回答内容为 1 句话,且“一目了然”。

实时查看生成结果和读取输出所需的时间。

通过实现微调,Gemini Nano 可以更好地生成遵循具体说明的摘要。

互动和分享反馈

我们非常期待收到您对经过微调的 Gemini Nano 对摘要的影响的反馈。

探索在浏览器中使用模型(包括大语言模型)的所有内置 AI API


  1. Chin-Yew Lin. 2004. ROUGE:用于自动评估摘要的软件包。In Text Summarization Branches Out, pages 74–81, Barcelona, Spain. 计算语言学协会。 

  2. Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu。2002 年。BLEU:一种用于自动评估机器翻译的方法。In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). 

  3. Mousumi Akter、Naman Bansal 和 Shubhra Kanti Karmaker。2022 年。Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. 发表在《计算语言学协会论文集:ACL 2022》(爱尔兰都柏林)第 1547-1560 页。计算语言学协会。 

  4. Daniel Deutsch 和 Dan Roth。2021 年。了解内容质量指标衡量摘要信息质量的程度。In Proceedings of the 25th Conference on Computational Natural Language Learning, pages 300–309, Online. 计算语言学协会。