Gepubliceerd: 21 mei 2025
Samenvatten is een van de meest voorkomende en essentiële AI-taken die gebruikmaken van grote taalmodellen (LLM's). Samenvattingen bieden een cruciaal middel om snel uitgebreide content te begrijpen – van lange artikelen en uitgebreide chatlogs tot talloze reviews – wat tijd bespaart, de productiviteit verhoogt en snellere, beter geïnformeerde besluitvorming mogelijk maakt.
Er zijn veel verschillende soorten samenvattingen, met uiteenlopende detailniveaus en opmaakvereisten. Om aan de verwachtingen van de verschillende soorten samenvattingen te voldoen, heeft Chrome samengewerkt met Google Cloud om de output van Gemini Nano te verbeteren.
We hebben Gemini Nano verfijnd met lage rangaanpassing (LoRA) om de ervaring en de kwaliteit van de output te verbeteren, voor alle samenvattingsstijlen en -lengtes. Daarnaast hebben we automatische en autorater -evaluaties geïmplementeerd op verschillende aspecten van de samenvattingskwaliteit, waaronder feitelijkheid, dekking, opmaak en leesbaarheid.
We hebben gevisualiseerd hoe dit verschil er in de praktijk uitziet. Je kunt experimenteren met deze implementatie en een realtime demo bekijken die de resultaten van Gemini Nano en Gemini Nano vergelijkt met LoRA.
Wat is de Summarizer API?
Uitlegger | Web | Uitbreidingen | Chrome-status | Intentie |
---|---|---|---|---|
MDN | Weergave | Intentie tot verzending |
De Summarizer API condenseert lange tekstinhoud tot korte, gemakkelijk te begrijpen samenvattingen. De API is ingebouwd in Chrome en gebruikt Gemini Nano om deductie uit te voeren.
Verschillende sites vereisen mogelijk samenvattingen met verschillende stijlen en lengtes . Als u bijvoorbeeld een nieuwssite bent, kunt u een lijst met opsommingstekens met de belangrijkste punten in uw artikelen aanbieden. Gebruikers die productrecensies bekijken, kunnen daarentegen baat hebben bij een snelle en korte samenvatting van de mening over de recensie. Ter illustratie hebben we de Wikipedia-pagina over Welsh Corgi's samengevat met de lengte ingesteld op short
.
Samenvattingstype | Uitvoer |
headline | ## Welsh Corgi: een geschiedenis van royalty en herdershonden |
key-points | * De Welsh Corgi is een kleine herdershond die oorspronkelijk uit Wales komt. * Er zijn twee hoofdrassen: de Pembroke en de Cardigan Welsh Corgi. * De Pembroke is populairder en wordt geassocieerd met de Britse koninklijke familie. |
tldr | De Welsh Corgi, een kleine herdershond met een lange geschiedenis in Wales en de Britse koninklijke familie, komt voor in twee varianten: de Pembroke en de Cardigan. Beide varianten staan bekend om hun vosachtige gezicht, korte poten en herdersinstinct. |
teaser | Ontdek de geschiedenis van de Welsh Corgi, van zijn bescheiden oorsprong als herdershond voor Welshe boeren tot zijn opkomst als symbool van de Britse koninklijke familie. |
U kunt experimenteren met andere pagina's met behulp van de Summarizer API Playground .
Experimenteer met fijnafstemming
Fine-tuning is alleen beschikbaar als vlag in Chrome Canary , vanaf versie 138.0.7180.0
. Om dit model te gebruiken:
- Chrome Canary openen.
- Ga naar
chrome://flags/#summarization-api-for-gemini-nano
- Selecteer Ingeschakeld met aanpassing .
- Start de browser opnieuw.
- Open de DevTools Console en voer
Summarizer.availability()
in. Dit start de download van de aanvullende LoRA.
Zodra het downloaden voltooid is, kunt u beginnen met experimenteren.
Het evalueren van de prestaties van de samenvatter
We hebben de prestatieverbetering van de verfijnde Gemini Nano voornamelijk gemeten met behulp van twee evaluatiemethoden: automatisch en autorater . Finetuning helpt een model specifieke taken beter uit te voeren, zoals:
- Vertaal medische teksten beter.
- Genereer afbeeldingen in een specifieke artistieke stijl.
- Begrijp een nieuwe straattaal.
In dit geval wilden we beter voldoen aan de verwachtingen van elk type samenvatting.
Automatische evaluatie
Automatische evaluatie gebruikt software om de kwaliteit van de output van een model te beoordelen. We gebruikten deze techniek om te zoeken naar opmaakfouten, zinsherhaling en de aanwezigheid van niet-Engelstalige tekens in samenvattingen van Engelse invoer.
Opmaakfouten : We controleren of de samenvattingsantwoorden voldoen aan de opmaakinstructies van de prompt. Voor de korte kernpuntenstijl controleren we bijvoorbeeld of elk opsommingsteken met een asterisk (
*
) begint en of het aantal opsommingstekens niet meer dan 3 bedraagt.Herhaling van zinnen : We controleren of dezelfde zin wordt herhaald in één samenvattend antwoord, aangezien dit wijst op een antwoord van slechte kwaliteit.
Niet-Engelse tekens : We controleren of het antwoord niet-Engelse tekens bevat wanneer de invoer in het Engels moet zijn.
Hyperlink in uitvoer : We controleren of het antwoord hyperlinks bevat, in Markdown-formaat of in platte tekst, die niet in de invoer voorkomen.
We hebben twee soorten invoer geëvalueerd: overgenomen artikelen en chatlogs.
Kop | TLDR | Belangrijkste punten | Teaser | |
Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | |
Formaatfouten | 13,54% / 7,05% | 41,07% / 4,61% | 12,58% / 6,36% | 51,17% / 6,74% |
Herhaling van zinnen | 0,07% / 0,07% | 0,21% / 0,0% | 0,10% / 0,10% | 0,10% / 0,03% |
Niet-Engelse fouten | 3,95% / 0,03% | 1,38% / 0,0% | 2,41% / 0,03% | 1,44% / 0,0% |
Hyperlinks | 0,07% / 0,0% | 0,14% / 0,0% | 0,14% / 0,0% | 0,34% / 0,0% |
Kop | TLDR | Belangrijkste punten | Teaser | |
Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | |
Formaatfout | 13,17% / 0,24% | 22,92% / 0,18% | 4,43% / 0,09% | 29,64% / 3,51% |
Herhaling van zinnen | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,03% / 0,0% |
Niet-Engelse fout | 0,15% / 0,0% | 0,15% / 0,0% | 0,03% / 0,0% | 0,06% / 0,0% |
Hyperlinks | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% |
Nadat we de Gemini Nano hadden verfijnd, zagen we een aanzienlijke vermindering in het aantal opmaakfouten in verschillende samenvattingstypen, zowel voor artikelen als voor chatlogs.
Autorater-evaluatie
We gebruikten Gemini 1.5 Pro voor de beoordeling van de outputkwaliteit van Gemini Nano. Omdat elke samenvatting een ander doel heeft, verschilden de criteria en de waarde ervan voor de verschillende samenvattingstypen. Alle samenvattingstypen werden geëvalueerd op:
- Dekking : Geeft de samenvatting het essentiële doel van de input nauwkeurig weer?
- Feitelijkheid: Is de samenvatting waarheidsgetrouw? Bevat de samenvatting nieuwe informatie die niet expliciet of impliciet in de tekst werd vermeld?
- Opmaak : Is de samenvatting opgemaakt met geldige Markdown-syntaxis? Houdt de samenvatting zich aan de maximale zinslengte, zoals gevraagd?
- Duidelijkheid : Is de samenvatting repetitief? Brengt de samenvatting de kernboodschap accuraat over in zo min mogelijk woorden?
Omdat deze samenvattingstypen verschillende doeleinden hebben, zijn er aanvullende statistieken van toepassing op specifieke samenvattingstypen:
- Betrokkenheid: (
headline
): Is de samenvatting direct begrijpelijk voor een breed publiek? Gebruikt de samenvatting een toon die boeiend en aantrekkelijk is voor een breed publiek? - Beknoptheid (
tldr
): Is de samenvatting helder, beknopt en direct te begrijpen voor iemand met een zeer korte aandachtsspanne? Is de kernboodschap effectief samengevat in een gemakkelijk te lezen vorm? - Verleiding (
teaser
): Wekt de samenvatting effectief de interesse en moedigt ze de lezer aan om meer te willen weten door de volledige tekst te lezen? Gebruikt ze een taal die boeiend is en doet denken aan interessante inhoud?
We vergeleken de uitkomst van het basismodel en het model met LoRA naast elkaar met behulp van de autorater. De scores van de autorater werden gemiddeld tussen 0 en 1, waarna de scores werden getoetst aan de drempelwaarde.
Om een goed gefundeerd resultaat te garanderen, hebben we de variantie in de gegevens verminderd en de positiebias verminderd.
- Reductie van datavariantie : We hebben de scores van drie onafhankelijke outputs per input gemiddeld, aangezien onafhankelijke runs licht afwijkende resultaten kunnen opleveren. We hebben de outputs van zowel het basismodel als de verfijnde Gemini Nano gemiddeld. Hoewel de verschillen in scores tussen de outputs slechts licht verschilden, helpen gemiddelden ons om grotere datasets betrouwbaarder te begrijpen.
Positiebias verminderen : om te voorkomen dat de waarde van de samenvatting die als eerste met de beoordelaar werd gedeeld, de boventoon voerde, hebben we de resultaten twee keer geëvalueerd en vervolgens de eindscores gemiddeld.
- We hebben het model geëvalueerd met LoRA en vervolgens met het basismodel.
- Vervolgens draaiden we de volgorde om: we evalueerden het basismodel, gevolgd door het model met LoRA.
- Wij hebben de eindscores gemiddeld.
Kort Medium Lang Basis / Met LoRA Basis / Met LoRA Basis / Met LoRA LoRA eerst 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95% Basismodel eerst 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35% Versie C (Gemiddeld) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65% Winpercentages voor samenvattingen key-points
. Hogere waarden betekenen betere resultaten.
Hoewel de verschillen in scores voor de uitkomsten van hetzelfde model maar klein waren, helpen gemiddelden ons om grotere hoeveelheden data betrouwbaarder te begrijpen.
In 500 artikelen presteerde de geoptimaliseerde Gemini Nano aanzienlijk beter dan het basismodel.
Kop | TLDR | Belangrijkste punten | Teaser | |
Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | |
Kort | 74,74% / 89,12% | 55,76% / 89,50% | 71,02% / 89,18% | 53,47% / 87,14% |
Medium | 73,10% / 87,89% | 41,82% / 81,21% | 69,59% / 84,08% | 48,98% / 86,74% |
Lang | 60,99% / 89,32% | 50,51% / 84,85% | 63,47% / 82,65% | 62,65% / 87,55% |
Hetzelfde gold voor onze evaluatie van 500 chatlogs: de geoptimaliseerde Gemini Nano presteerde beter dan het basismodel.
Kop | TLDR | Belangrijkste punten | Teaser | |
Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | Basis / Met LoRA | |
Kort | 70,59% / 96,15% | 66,27% / 97,79% | 81,60% / 97,40% | 67,48% / 96,14% |
Medium | 76,67% / 95,13% | 56,02% / 94,98% | 82,60% / 97,20% | 50,41% / 96,95% |
Lang | 59,03% / 94,32% | 65,86% / 95,58% | 75,00% / 97,60% | 70,94% / 97,16% |
Deze resultaten tonen aan dat onze fijnafstemming de algehele kwaliteit van de samenvatting heeft verbeterd.
Betere samenvattingen met LoRA
Traditioneel wordt finetuning uitgevoerd door de parameters van het model aan te passen. Moderne AI-modellen zijn enorm , dus deze bewerking is traag, duur en vereist het opslaan van een gloednieuwe kopie van het model.
In plaats van alle parameters te wijzigen, wat als we kleine extra stukjes toevoegen die het model in de gewenste richting sturen? Hun kleinere formaat maakt een veel snellere training mogelijk. Dit is het kernprincipe van lage-rangadaptatie (LoRA) . Met LoRA blijven bepaalde stukjes van het model ongewijzigd, wat vaak wordt aangeduid als het bevriezen van de parameters. Vervolgens wordt een kleinere dataset geïntroduceerd met kleine correcties, waardoor de trainingsinspanningen zich op deze toegevoegde stukjes richten.
Eigenlijk kunt u doorgaans slechts 2% van de oorspronkelijke parameters met LoRA trainen en nog steeds aanzienlijke veranderingen in uw uitkomsten zien.
Waarom werkt dit? Veel gedragingen (zoals nieuwe stijlen, taken of kennis) kunnen worden geïntegreerd zonder elke modelparameter te wijzigen. Deze veranderingen kunnen worden uitgedrukt als kleine patronen of richtingen binnen de bestaande kennis van het model. LoRA legt deze patronen efficiënt vast zonder het oorspronkelijke model aan te tasten.
Bekijk enkele voorbeelden die het Gemini Nano-basismodel vergelijken met de resultaten na toevoeging van LoRA.
We vroegen Gemini Nano om een korte kop te maken die "de aandacht trekt en de essentie van de inhoud weergeeft" in het Wikipedia-artikel over Joshua Tree National Park .
Tweeling Nano | Gemini Nano met LoRA |
Het unieke landschap en de geschiedenis van Joshua Tree National Park | Joshua Tree: Nationaal park in Californië, gelegen tussen de woestijnen en thuisbasis van iconische bomen |
Vervolgens vroegen we Gemini Nano om een korte teaser voor het Ratatouille-artikel . "Schrijf een pakkende zin die gebruikers aanmoedigt de volledige tekst te lezen."
Tweeling Nano | Gemini Nano met LoRA |
Ratatouille is een geliefd Frans Provençaals gerecht met gestoofde groenten, vaak met tomaten en knoflook. De oorsprong ervan gaat terug tot de 18e eeuw en de bereidingswijze is in de loop der tijd geëvolueerd. Sommige chefs leggen de nadruk op de smaken van individuele groenten, terwijl anderen de voorkeur geven aan een gladdere, meer uniforme textuur. Naast de Franse oorsprong heeft ratatouille soortgelijke gerechten geïnspireerd in diverse keukens over de hele wereld, waaronder piperade uit Spanje en tian uit het Middellandse Zeegebied. De film "Ratatouille" (2007) heeft het gerecht verder gepopulariseerd en de culinaire veelzijdigheid en emotionele lading ervan laten zien. | Ratatouille, een Frans Provençaals gerecht van gestoofde groenten, heeft een rijke culinaire geschiedenis. Het is van een eenvoudige stoofpot uitgegroeid tot een modern culinair meesterwerk dat wereldwijd een publiek weet te boeien. |
Realtime inferentie demo
We hebben een interface gebouwd die de vergelijking van de uitvoer tussen Gemini Nano en Gemini Nano met LoRA laat zien.
We hebben Gemini Nano gevraagd een short
tldr
samenvatting te maken voor het artikel over de Ocean Sunfish . Houd er rekening mee dat tldr
en short
een antwoord in één zin vereisen, dat "snel te lezen" is.
Door fine-tuning kan Gemini Nano beter een samenvatting genereren die voldoet aan de specifieke instructies.
Betrek en deel feedback
Wij zijn benieuwd naar uw feedback over de impact van de verbeterde Gemini Nano op uw samenvattingen.
- Experimenteer met het bijgewerkte model in Chrome Canary .
- Meer informatie over de Summarizer API .
- Als u feedback hebt over de implementatie van Chrome, kunt u een bugrapport of een functieverzoek indienen.
Ontdek alle ingebouwde AI API's die modellen gebruiken, inclusief grote taalmodellen, in de browser.
Chin-Yew Lin. 2004. ROUGE: Een pakket voor automatische evaluatie van samenvattingen . In Text Summarization Branches Out, pagina 's 74-81, Barcelona, Spanje. Association for Computational Linguistics.
Kishore Papineni, Salim Roukos, Todd Ward en Wei-Jing Zhu. 2002. BLEU: een methode voor automatische evaluatie van machinevertaling. In Proceedings van de 40e jaarlijkse bijeenkomst van de Association for Computational Linguistics (ACL '02) .
Mousumi Akter, Naman Bansal en Shubhra Kanti Karmaker. 2022. Automatische evaluatie van extractieve samenvattingstaken herzien: kunnen we het beter doen dan ROUGE?. In Findings of the Association for Computational Linguistics: ACL 2022, pagina's 1547-1560, Dublin , Ierland. Association for Computational Linguistics.
Daniel Deutsch en Dan Roth. 2021. Inzicht in de mate waarin contentkwaliteitsmetrieken de informatiekwaliteit van samenvattingen meten. In Proceedings of the 25th Conference on Computational Natural Language Learning, pagina 's 300-309, online. Association for Computational Linguistics.