發布日期:2025 年 5 月 21 日
摘要是使用大型語言模型 (LLM) 最常見且重要的 AI 工作之一。摘要是快速掌握大量內容的重要工具,從冗長的文章、密密麻麻的即時通訊記錄到大量評論,都能透過摘要快速掌握重點,節省時間、提升工作效率,並做出更明智的決策。
摘要有多種類型,每種類型都提供不同的詳細程度和格式要求。為滿足各種摘要類型的期待,Chrome 與 Google Cloud 合作改善 Gemini Nano 的輸出內容。
我們使用低秩調整 (LoRA) 技術對 Gemini Nano 進行微調,以便針對所有摘要樣式和長度提升使用體驗和輸出品質。此外,我們還針對摘要品質的不同面向導入自動和自動評分器評估,包括事實性、涵蓋範圍、格式和可讀性。
我們將這項差異以圖表呈現,讓您瞭解實際應用情境。您可以試用這個實作項目,並查看即時示範,比較 Gemini Nano 和 Gemini Nano 與 LoRA 的輸出內容。
什麼是 Summarizer API?
說明 | 網頁 | 額外資訊 | Chrome 狀態 | Intent |
---|---|---|---|---|
MDN | 查看 | Intent to Ship |
Summarizer API 可將冗長的文字內容濃縮為簡短易懂的摘要。這個 API 已內建於 Chrome,並使用 Gemini Nano 執行推論。
不同網站可能需要不同樣式和長度的摘要。舉例來說,如果您是新聞網站,建議在文章中提供重點的項目符號清單。或者,瀏覽產品評論的使用者可以從簡短的評論情緒摘要中獲益。為示範起見,我們將 維基百科的威爾斯科里斯語頁面摘要,並將長度設為 short
。
摘要類型 | 輸出內容 |
headline |
## Welsh Corgi:皇室和牧羊犬的歷史 |
key-points |
* 威爾斯柯基犬是一種小型牧羊犬,起源於威爾斯。 * 主要有兩個品種:彭布羅威爾斯柯基犬和卡迪根威爾斯柯基犬。 * Pembroke 更受歡迎,且與英國皇室有淵源。 |
tldr |
威爾斯柯基犬是一種小型牧羊犬,在威爾斯和英國皇室中擁有悠久歷史,分為彭布羅和卡狄根兩種,兩者皆以狐狸般的臉孔、短腿和牧羊本能聞名。 |
teaser |
探索威爾斯柯基犬的歷史,從其卑微的起源 (威爾斯農夫的牧羊犬) 到成為英國皇室象徵的過程。 |
您可以使用 Summarizer API Playground 嘗試其他網頁。
微調實驗
精細調整功能僅適用於 Chrome Canary 中的旗標 (自 138.0.7180.0
版起)。如何使用這個模型:
- 開啟 Chrome Canary。
- 前往
chrome://flags/#summarization-api-for-gemini-nano
- 選取「Enabled with Adaptation」。
- 重新啟動瀏覽器。
- 開啟開發人員工具中的「主控台」,然後輸入
Summarizer.availability()
。這會啟動 LoRA 補充檔案的下載作業。
下載完成後,即可開始進行實驗。
評估摘要工具的效能
我們主要使用兩種評估方法,即自動和自動評分器,來評估 Gemini Nano 經過微調後的效能提升幅度。微調可協助模型更有效地執行特定工作,例如:
- 更準確地翻譯醫療相關文字。
- 以特定藝術風格生成圖片。
- 瞭解新俚語。
在這種情況下,我們希望能更符合各個摘要類型的預期。
自動評估
自動評估會使用軟體判斷模型的輸出品質。我們使用這項技術搜尋英文輸入內容摘要中的格式錯誤、重複句子,以及非英文字元。
格式錯誤:我們會檢查摘要回覆是否遵循提示的格式設定說明。舉例來說,如果是簡短重點摘要格式,我們會檢查每個項目符號是否以星號 (
*
) 開頭,且項目符號數量不超過 3 個。重複句子:我們會檢查單一摘要回覆中是否重複相同句子,因為這表示回覆品質不佳。
非英文字元:我們會檢查輸入內容為英文時,回應是否包含非英文字元。
輸出內容中的超連結:我們會檢查回覆內容是否含有 Markdown 格式或純文字的超連結,而這些超連結並未出現在輸入內容中。
我們評估了兩種輸入格式:擷取的文章和即時通訊記錄。
廣告標題 | TLDR | 重點 | 預告片 | |
基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | |
格式錯誤 | 13.54% / 7.05% | 41.07% / 4.61% | 12.58% / 6.36% | 51.17% / 6.74% |
重複句子 | 0.07% / 0.07% | 0.21% / 0.0% | 0.10% / 0.10% | 0.10% / 0.03% |
非英文錯誤 | 3.95% / 0.03% | 1.38% / 0.0% | 2.41% / 0.03% | 1.44% / 0.0% |
超連結 | 0.07% / 0.0% | 0.14% / 0.0% | 0.14% / 0.0% | 0.34% / 0.0% |
標題 | TLDR | 重點 | 預告片 | |
基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | |
格式錯誤 | 13.17% / 0.24% | 22.92% / 0.18% | 4.43% / 0.09% | 29.64% / 3.51% |
重複句子 | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.03% / 0.0% |
非英文錯誤 | 0.15% / 0.0% | 0.15% / 0.0% | 0.03% / 0.0% | 0.06% / 0.0% |
超連結 | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% | 0.0% / 0.0% |
在微調 Gemini Nano 後,我們發現各種摘要類型 (文章和即時通訊記錄) 的格式錯誤率大幅降低。
自動評分工具評估
我們使用 Gemini 1.5 Pro 進行自動評分評估,以判斷 Gemini Nano 的輸出品質。由於每個摘要都有不同的用途,因此不同摘要類型的條件和值也會有所不同。我們評估所有摘要類型的以下項目:
- 涵蓋率:摘要是否正確擷取輸入內容的主要目的?
- 事實性:摘要是否真實?摘要是否會引入文中未明確陳述或暗示的新資訊?
- 格式:摘要是否使用有效的 Markdown 語法進行格式設定?摘要是否符合要求的句子長度上限?
- 清晰度:摘要是否重複?摘要是否以最少的字詞準確傳達核心訊息?
由於這些摘要類型的用途不同,因此適用於特定摘要類型的額外指標如下:
- 參與度: (
headline
):一般觀眾是否能立即瞭解摘要內容?摘要的語氣是否能吸引一般觀眾? - 簡潔扼要 (
tldr
):摘要是否清楚簡潔,讓注意力持續時間很短的使用者能立即理解?是否能有效地將核心訊息濃縮成易於消化的形式,讓讀者快速閱讀? - 吸引力 (
teaser
):摘要是否能有效引起讀者興趣,並鼓勵讀者閱讀完整內容以瞭解更多資訊?是否使用吸引人且暗示有趣內容的語言?
我們使用自動評分工具,並排比較基礎模型和 LoRA 模型的輸出內容。自動作者的平均分數介於 0 和 1 之間,然後根據閾值進行評估。
為確保結果有充分的依據,我們減少了資料變異,並減輕了位置偏差。
- 減少資料差異:我們會對每個輸入內容的三個獨立輸出內容平均評分,因為獨立執行作業可能會產生略有不同的結果。我們將基礎模型和精密調整的 Gemini Nano 輸出結果平均起來,雖然各項輸出內容的得分差異不大,但平均值有助於我們更準確地瞭解大量資料。
減少位置偏誤:為避免優先考量先與評分者分享的摘要價值,我們評估了兩次結果,然後將最終分數平均。
- 我們先使用 LoRA 評估模型,再評估基礎模型。
- 接著,我們撤銷了訂單。我們先評估基礎模型,接著評估 LoRA 模型。
- 我們會計算最終得分的平均值。
短 中 長 基本 / 搭配 LoRA 基本 / 搭配 LoRA 基本 / 搭配 LoRA 優先使用 LoRA 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95% 先使用基礎模型 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35% 版本 C (平均) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65% key-points
摘要類型的勝率。數值越高,成效越好。
雖然同一個模型的輸出內容得分差異不大,但平均值有助於我們更準確地瞭解大量資料。
在 500 篇文章中,經過微調的 Gemini Nano 表現比基礎模型好上許多。
標題 | TLDR | 重點 | 預告片 | |
基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | |
短 | 74.74% / 89.12% | 55.76% / 89.50% | 71.02% / 89.18% | 53.47% / 87.14% |
中 | 73.10% / 87.89% | 41.82% / 81.21% | 69.59% / 84.08% | 48.98% / 86.74% |
長 | 60.99% / 89.32% | 50.51% / 84.85% | 63.47% / 82.65% | 62.65% / 87.55% |
在我們評估的 500 個即時通訊記錄中,精修過的 Gemini Nano 也比基本模型表現更好。
標題 | TLDR | 重點 | 預告片 | |
基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | 基本 / 搭配 LoRA | |
短 | 70.59% / 96.15% | 66.27% / 97.79% | 81.60% / 97.40% | 67.48% / 96.14% |
中 | 76.67% / 95.13% | 56.02% / 94.98% | 82.60% / 97.20% | 50.41% / 96.95% |
長 | 59.03% / 94.32% | 65.86% / 95.58% | 75.00% / 97.60% | 70.94% / 97.16% |
這些結果顯示,我們的精細調整確實改善了摘要的整體品質。
使用 LoRA 製作更優質的摘要
傳統上,微調會透過調整模型參數來執行。現代 AI 模型的體積龐大,因此這項作業的速度緩慢且成本高昂,且需要儲存模型的全新副本。
與其變更所有參數,不如新增一些小小的額外元素,讓模型朝著我們想要的方向前進。較小的模型可加快訓練速度。這是低秩調整 (LoRA) 的核心原則。使用 LoRA 時,模型的某些部分會保持不變,這通常稱為「凍結參數」。接著,系統會引入較小組合的資料,並進行小幅修正,將訓練工作重點放在這些新增的資料上。
事實上,您通常只需使用 LoRA 訓練原始參數的 2%,就能看到輸出結果出現重大變化。
為什麼這麼做有效?您可以加入許多行為 (例如新樣式、工作或知識),而無須變更每個模型參數。這些變更可在模型現有知識中,以小型模式或方向表示。LoRA 可有效擷取這些模式,而無須修改原始模型。
請參考以下幾個範例,比較 Gemini Nano 基礎模型與加入 LoRA 後的結果。
我們請 Gemini Nano 在 Joshua Tree National Park Wikipedia 文章中,為「抓住目光並傳達內容精髓」的短標題。
Gemini Nano | Gemini Nano 搭配 LoRa |
約書亞樹國家公園的獨特景觀和歷史 | Joshua Tree:加州國家公園,橫跨沙漠,也是著名樹木的故鄉 |
接著,我們要求 Gemini Nano 提供《料理鼠王》文章的短預告片。「撰寫一句吸引人的句子,鼓勵使用者閱讀完整內容。」
Gemini Nano | Gemini Nano 搭配 LoRa |
蔬菜燉湯是廣受喜愛的法國普羅旺斯料理,其中常加入番茄和大蒜等燉煮蔬菜。這道料理的起源可追溯至 18 世紀,而製作方式也隨著時間演變,有些主廚強調個別蔬菜的風味,有些則偏好更滑順、口感更統一的質地。除了法國原產的 ratatouille,世界各地的各式料理也都受到這道菜的啟發,包括西班牙的 piperade 和地中海的 tian。電影「料理鼠王」(2007 年) 進一步推廣了這道菜餚,展示了這道菜餚的多元烹飪方式和情感共鳴。 | Ratatouille 是法國普羅旺斯的燉蔬菜料理,擁有豐富的烹飪歷史,從簡單的燉菜演變成擄獲全球觀眾的現代料理傑作。 |
即時推論示範
我們建構了一個介面,用於比較 Gemini Nano 和 Gemini Nano with LoRA 的輸出內容。
我們要求 Gemini Nano 為 Ocean Sunfish 文章建立 tldr
摘要,長度為 short
。請注意,tldr
和 short
需要 1 句「快速閱讀」的回覆。
透過精細調整,Gemini Nano 可以更準確地依照特定指示產生摘要。
互動及分享意見回饋
我們很期待聽到你對 Gemini Nano 精細調整後的摘要功能有何看法。
- 試用 Chrome Canary 中的更新模型。
- 進一步瞭解 Summarizer API。
- 如果您對 Chrome 的實作方式有任何意見,請提交錯誤報告或功能要求。
探索所有在瀏覽器中使用模型 (包括大型語言模型) 的內建 AI API。
-
Chin-Yew Lin。2004 年。ROUGE:自動評估摘要的套件。在「Text Summarization Branches Out」(文字摘要的多元發展) 一書中,第 74 至 81 頁,西班牙巴塞隆納。Association for Computational Linguistics。↩
-
Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Zhu。2002 年。BLEU:自動評估機器翻譯的一種方法。收錄於 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02)。 ↩
-
Mousumi Akter、Naman Bansal 和 Shubhra Kanti Karmaker。2022 年。Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE?. 在「Findings of the Association for Computational Linguistics: ACL 2022」(電腦語言學協會研究成果:ACL 2022) 中,第 1547 至 1560 頁,愛爾蘭都柏林。Association for Computational Linguistics。 ↩
-
Daniel Deutsch 和 Dan Roth。2021 年,瞭解內容品質指標評估摘要資訊品質的程度。見「Proceedings of the 25th Conference on Computational Natural Language Learning」(線上版),第 300 至 309 頁。Association for Computational Linguistics。 ↩