改善 Gemini Nano:透過 LoRA 提供更高品質的摘要

發布日期:2025 年 5 月 21 日

摘要是使用大型語言模型 (LLM) 最常見且重要的 AI 工作之一。摘要是快速掌握大量內容的重要工具,從冗長的文章、密密麻麻的即時通訊記錄到大量評論,都能透過摘要快速掌握重點,節省時間、提升工作效率,並做出更明智的決策。

摘要有多種類型,每種類型都提供不同的詳細程度和格式要求。為滿足各種摘要類型的期待,Chrome 與 Google Cloud 合作改善 Gemini Nano 的輸出內容。

我們使用低秩調整 (LoRA) 技術對 Gemini Nano 進行微調,以便針對所有摘要樣式和長度提升使用體驗和輸出品質。此外,我們還針對摘要品質的不同面向導入自動自動評分器評估,包括事實性、涵蓋範圍、格式和可讀性。

我們將這項差異以圖表呈現,讓您瞭解實際應用情境。您可以試用這個實作項目,並查看即時示範,比較 Gemini Nano 和 Gemini Nano 與 LoRA 的輸出內容。

什麼是 Summarizer API?

說明 網頁 額外資訊 Chrome 狀態 Intent
MDN Chrome 138 Chrome 138 查看 Intent to Ship

Summarizer API 可將冗長的文字內容濃縮為簡短易懂的摘要。這個 API 已內建於 Chrome,並使用 Gemini Nano 執行推論。

不同網站可能需要不同樣式和長度的摘要。舉例來說,如果您是新聞網站,建議在文章中提供重點的項目符號清單。或者,瀏覽產品評論的使用者可以從簡短的評論情緒摘要中獲益。為示範起見,我們將 維基百科的威爾斯科里斯語頁面摘要,並將長度設為 short

摘要類型 輸出內容
headline ## Welsh Corgi:皇室和牧羊犬的歷史
key-points * 威爾斯柯基犬是一種小型牧羊犬,起源於威爾斯。
* 主要有兩個品種:彭布羅威爾斯柯基犬和卡迪根威爾斯柯基犬。
* Pembroke 更受歡迎,且與英國皇室有淵源。
tldr 威爾斯柯基犬是一種小型牧羊犬,在威爾斯和英國皇室中擁有悠久歷史,分為彭布羅和卡狄根兩種,兩者皆以狐狸般的臉孔、短腿和牧羊本能聞名。
teaser 探索威爾斯柯基犬的歷史,從其卑微的起源 (威爾斯農夫的牧羊犬) 到成為英國皇室象徵的過程。

您可以使用 Summarizer API Playground 嘗試其他網頁。

微調實驗

精細調整功能僅適用於 Chrome Canary 中的旗標 (自 138.0.7180.0 版起)。如何使用這個模型:

  1. 開啟 Chrome Canary
  2. 前往 chrome://flags/#summarization-api-for-gemini-nano
  3. 選取「Enabled with Adaptation」
  4. 重新啟動瀏覽器。
  5. 開啟開發人員工具中的「主控台」,然後輸入 Summarizer.availability()。這會啟動 LoRA 補充檔案的下載作業。

下載完成後,即可開始進行實驗。

評估摘要工具的效能

我們主要使用兩種評估方法,即自動自動評分器,來評估 Gemini Nano 經過微調後的效能提升幅度。微調可協助模型更有效地執行特定工作,例如:

  • 更準確地翻譯醫療相關文字。
  • 以特定藝術風格生成圖片。
  • 瞭解新俚語。

在這種情況下,我們希望能更符合各個摘要類型的預期。

自動評估

自動評估會使用軟體判斷模型的輸出品質。我們使用這項技術搜尋英文輸入內容摘要中的格式錯誤、重複句子,以及非英文字元。

  • 格式錯誤:我們會檢查摘要回覆是否遵循提示的格式設定說明。舉例來說,如果是簡短重點摘要格式,我們會檢查每個項目符號是否以星號 (*) 開頭,且項目符號數量不超過 3 個。

  • 重複句子:我們會檢查單一摘要回覆中是否重複相同句子,因為這表示回覆品質不佳。

  • 非英文字元:我們會檢查輸入內容為英文時,回應是否包含非英文字元。

  • 輸出內容中的超連結:我們會檢查回覆內容是否含有 Markdown 格式或純文字的超連結,而這些超連結並未出現在輸入內容中。

我們評估了兩種輸入格式:擷取的文章和即時通訊記錄。

  廣告標題 TLDR 重點 預告片
  基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA
格式錯誤 13.54% / 7.05% 41.07% / 4.61% 12.58% / 6.36% 51.17% / 6.74%
重複句子 0.07% / 0.07% 0.21% / 0.0% 0.10% / 0.10% 0.10% / 0.03%
非英文錯誤 3.95% / 0.03% 1.38% / 0.0% 2.41% / 0.03% 1.44% / 0.0%
超連結 0.07% / 0.0% 0.14% / 0.0% 0.14% / 0.0% 0.34% / 0.0%
自動評估 970 篇不同摘要類型的文章。
  標題 TLDR 重點 預告片
  基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA
格式錯誤 13.17% / 0.24% 22.92% / 0.18% 4.43% / 0.09% 29.64% / 3.51%
重複句子 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.03% / 0.0%
非英文錯誤 0.15% / 0.0% 0.15% / 0.0% 0.03% / 0.0% 0.06% / 0.0%
超連結 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0%
針對 1091 個即時通訊輸入內容樣本進行自動評估。

在微調 Gemini Nano 後,我們發現各種摘要類型 (文章和即時通訊記錄) 的格式錯誤率大幅降低。

自動評分工具評估

我們使用 Gemini 1.5 Pro 進行自動評分評估,以判斷 Gemini Nano 的輸出品質。由於每個摘要都有不同的用途,因此不同摘要類型的條件和值也會有所不同。我們評估所有摘要類型的以下項目:

  • 涵蓋率:摘要是否正確擷取輸入內容的主要目的?
  • 事實性:摘要是否真實?摘要是否會引入文中未明確陳述或暗示的新資訊?
  • 格式:摘要是否使用有效的 Markdown 語法進行格式設定?摘要是否符合要求的句子長度上限?
  • 清晰度:摘要是否重複?摘要是否以最少的字詞準確傳達核心訊息?

由於這些摘要類型的用途不同,因此適用於特定摘要類型的額外指標如下:

  • 參與度: (headline):一般觀眾是否能立即瞭解摘要內容?摘要的語氣是否能吸引一般觀眾?
  • 簡潔扼要 (tldr):摘要是否清楚簡潔,讓注意力持續時間很短的使用者能立即理解?是否能有效地將核心訊息濃縮成易於消化的形式,讓讀者快速閱讀?
  • 吸引力 (teaser):摘要是否能有效引起讀者興趣,並鼓勵讀者閱讀完整內容以瞭解更多資訊?是否使用吸引人且暗示有趣內容的語言?

我們使用自動評分工具,並排比較基礎模型和 LoRA 模型的輸出內容。自動作者的平均分數介於 0 和 1 之間,然後根據閾值進行評估。

為確保結果有充分的依據,我們減少了資料變異,並減輕了位置偏差。

  • 減少資料差異:我們會對每個輸入內容的三個獨立輸出內容平均評分,因為獨立執行作業可能會產生略有不同的結果。我們將基礎模型和精密調整的 Gemini Nano 輸出結果平均起來,雖然各項輸出內容的得分差異不大,但平均值有助於我們更準確地瞭解大量資料。
  • 減少位置偏誤:為避免優先考量先與評分者分享的摘要價值,我們評估了兩次結果,然後將最終分數平均。

    1. 我們先使用 LoRA 評估模型,再評估基礎模型。
    2. 接著,我們撤銷了訂單。我們先評估基礎模型,接著評估 LoRA 模型。
    3. 我們會計算最終得分的平均值。
     
      基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA
    優先使用 LoRA 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95%
    先使用基礎模型 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35%
    版本 C (平均) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65%
    key-points 摘要類型的勝率。數值越高,成效越好。

雖然同一個模型的輸出內容得分差異不大,但平均值有助於我們更準確地瞭解大量資料。

在 500 篇文章中,經過微調的 Gemini Nano 表現比基礎模型好上許多。

  標題 TLDR 重點 預告片
  基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA
74.74% / 89.12% 55.76% / 89.50% 71.02% / 89.18% 53.47% / 87.14%
73.10% / 87.89% 41.82% / 81.21% 69.59% / 84.08% 48.98% / 86.74%
60.99% / 89.32% 50.51% / 84.85% 63.47% / 82.65% 62.65% / 87.55%
Autorarer 在 500 篇不同摘要和長度類型的文章中勝率為 數字越高,表示成效越好。

在我們評估的 500 個即時通訊記錄中,精修過的 Gemini Nano 也比基本模型表現更好。

  標題 TLDR 重點 預告片
  基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA
70.59% / 96.15% 66.27% / 97.79% 81.60% / 97.40% 67.48% / 96.14%
76.67% / 95.13% 56.02% / 94.98% 82.60% / 97.20% 50.41% / 96.95%
59.03% / 94.32% 65.86% / 95.58% 75.00% / 97.60% 70.94% / 97.16%
AutoRater 在 500 個聊天記錄中,以不同摘要和長度類型計算勝率。數字越高,表示成效越好。

這些結果顯示,我們的精細調整確實改善了摘要的整體品質。

使用 LoRA 製作更優質的摘要

傳統上,微調會透過調整模型參數來執行。現代 AI 模型的體積龐大,因此這項作業的速度緩慢且成本高昂,且需要儲存模型的全新副本。

與其變更所有參數,不如新增一些小小的額外元素,讓模型朝著我們想要的方向前進。較小的模型可加快訓練速度。這是低秩調整 (LoRA) 的核心原則。使用 LoRA 時,模型的某些部分會保持不變,這通常稱為「凍結參數」。接著,系統會引入較小組合的資料,並進行小幅修正,將訓練工作重點放在這些新增的資料上。

事實上,您通常只需使用 LoRA 訓練原始參數的 2%,就能看到輸出結果出現重大變化。

為什麼這麼做有效?您可以加入許多行為 (例如新樣式、工作或知識),而無須變更每個模型參數。這些變更可在模型現有知識中,以小型模式或方向表示。LoRA 可有效擷取這些模式,而無須修改原始模型。

請參考以下幾個範例,比較 Gemini Nano 基礎模型與加入 LoRA 後的結果。

我們請 Gemini Nano 在 Joshua Tree National Park Wikipedia 文章中,為「抓住目光並傳達內容精髓」的短標題。

Gemini Nano Gemini Nano 搭配 LoRa
約書亞樹國家公園的獨特景觀和歷史 Joshua Tree:加州國家公園,橫跨沙漠,也是著名樹木的故鄉

接著,我們要求 Gemini Nano 提供《料理鼠王》文章的短預告片。「撰寫一句吸引人的句子,鼓勵使用者閱讀完整內容。」

Gemini Nano Gemini Nano 搭配 LoRa
蔬菜燉湯是廣受喜愛的法國普羅旺斯料理,其中常加入番茄和大蒜等燉煮蔬菜。這道料理的起源可追溯至 18 世紀,而製作方式也隨著時間演變,有些主廚強調個別蔬菜的風味,有些則偏好更滑順、口感更統一的質地。除了法國原產的 ratatouille,世界各地的各式料理也都受到這道菜的啟發,包括西班牙的 piperade 和地中海的 tian。電影「料理鼠王」(2007 年) 進一步推廣了這道菜餚,展示了這道菜餚的多元烹飪方式和情感共鳴。 Ratatouille 是法國普羅旺斯的燉蔬菜料理,擁有豐富的烹飪歷史,從簡單的燉菜演變成擄獲全球觀眾的現代料理傑作。

即時推論示範

我們建構了一個介面,用於比較 Gemini Nano 和 Gemini Nano with LoRA 的輸出內容。

我們要求 Gemini Nano 為 Ocean Sunfish 文章建立 tldr 摘要,長度為 short。請注意,tldrshort 需要 1 句「快速閱讀」的回覆。

即時查看產生結果和讀取輸出內容所需的時間。

透過精細調整,Gemini Nano 可以更準確地依照特定指示產生摘要。

互動及分享意見回饋

我們很期待聽到你對 Gemini Nano 精細調整後的摘要功能有何看法。

探索所有在瀏覽器中使用模型 (包括大型語言模型) 的內建 AI API


  1. Chin-Yew Lin。2004 年。ROUGE:自動評估摘要的套件。在「Text Summarization Branches Out」(文字摘要的多元發展) 一書中,第 74 至 81 頁,西班牙巴塞隆納。Association for Computational Linguistics。

  2. Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu。2002 年。BLEU:自動評估機器翻譯的一種方法。收錄於 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02)。 

  3. Mousumi Akter、Naman Bansal 和 Shubhra Kanti Karmaker。2022 年。Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. 在「Findings of the Association for Computational Linguistics: ACL 2022」(電腦語言學協會研究成果:ACL 2022) 中,第 1547 至 1560 頁,愛爾蘭都柏林。Association for Computational Linguistics。 

  4. Daniel Deutsch 和 Dan Roth。2021 年,瞭解內容品質指標評估摘要資訊品質的程度。見「Proceedings of the 25th Conference on Computational Natural Language Learning」(線上版),第 300 至 309 頁。Association for Computational Linguistics。