Ulepszenia w Gemini Nano: tworzenie podsumowań o wyższej jakości dzięki LoRA

Data publikacji: 21 maja 2025 r.

Streszczenie jest jednym z najczęstszych i najważniejszych zadań AI wykorzystujących duże modele językowe (LLM). Podsumowania stanowią kluczowy sposób na szybkie zrozumienie obszernych treści – od długich artykułów i gęstych logów czatu po liczne opinie – co pozwala zaoszczędzić czas, zwiększyć produktywność i podejmować szybsze, bardziej świadome decyzje.

Istnieje wiele różnych typów podsumowań o różnym stopniu szczegółowości i oczekiwań dotyczących formatowania. Aby spełnić oczekiwania związane z różnymi typami podsumowań, Chrome we współpracy z Google Cloud ulepszyła wyniki Gemini Nano.

Dokonaliśmy dokładnego dostosowania Gemini Nano do adaptacji niskiego rzędu (LoRA), aby zwiększyć wygodę korzystania z tej usługi i poprawić jakość generowanych wyników w przypadku wszystkich stylów i długości podsumowań. Dodatkowo wprowadziliśmy automatyczneautorater oceny różnych aspektów jakości podsumowania, w tym rzetelności, zakresu, formatu i czytelności.

Poniżej przedstawiamy wizualizację, która pokazuje, jak ta różnica wygląda w praktyce. Możesz eksperymentować z tą implementacją i obejrzeć demo w czasie rzeczywistym, które porównuje wyniki Gemini Nano i Gemini Nano z LoRA.

Czym jest interfejs Summarizer API?

Objaśnienie Sieć Rozszerzenia Stan Chrome Intencja
MDN  Chrome 138  Chrome 138 Wyświetl Intencja dostawy

Interfejs Summarizer API skraca długie teksty do krótkich, łatwych do zrozumienia streszczeń. Interfejs API jest wbudowany w Chrome i wykorzystuje Gemini Nano do wykonywania wnioskowania.

Różne strony mogą wymagać podsumowań w różnych stylach i długościach. Jeśli na przykład prowadzisz serwis informacyjny, możesz umieścić w artykułach listę najważniejszych punktów. Użytkownicy przeglądający opinie o produkcie mogą też skorzystać z krótkiego podsumowania nastroju w opinii. Aby to zilustrować, streściliśmy artykuł na temat welsh corgi cardigan w Wikipedii, ustawiając długość na short.

Typ podsumowania Dane wyjściowe
headline ## Welsh Corgi: A History of Royalty and Herding Dogs
key-points * Welsh corgi to mały pies pasterski pochodzący z Walii.
* Istnieją 2 główne rasy: Pembroke i Cardigan Welsh Corgi.
* Psy rasy Pembroke są bardziej popularne i kojarzone z brytyjską rodziną królewską.
tldr Walijski corgi, mały pies pasterski z długą historią w Wielkiej Brytanii i wśród brytyjskiej rodziny królewskiej, występuje w 2 odmianach: pembroke i cardigen. Oba słyną z lisiego pyszczka, krótkich nóg i instynktów pasterskich.
teaser Poznaj historię walijskiego corgi, od jego skromnych początków jako psa zaganiającego stada na potrzeby walijskich rolników po awans do rangi symbolu brytyjskiej rodziny królewskiej.

Możesz eksperymentować z innymi stronami za pomocą placu zabaw Summarizer API.

Dostosowanie

Dokładne dostrojenie jest dostępne tylko jako flaga w Chrome Canary od wersji 138.0.7180.0. Aby korzystać z tego modelu:

  1. Otwórz Chrome Canary.
  2. Przejdź do: chrome://flags/#summarization-api-for-gemini-nano
  3. Wybierz Włączone z adaptacją.
  4. Uruchom ponownie przeglądarkę.
  5. Otwórz konsolę Narzędzi deweloperskich i wpisz Summarizer.availability(). Rozpocznie się pobieranie dodatkowego LoRa.

Po zakończeniu pobierania możesz zacząć eksperymentować.

Ocena skuteczności streszczacza

Zwiększenie skuteczności dopracowanego modelu Gemini Nano zmierzono głównie za pomocą 2 metod oceny: automatycznejautomatycznej oceny. Dostrajanie pomaga modelowi lepiej wykonywać określone zadania, takie jak:

  • Lepsze tłumaczenie tekstów medycznych.
  • generować obrazy w określonym stylu artystycznym.
  • zrozumieć nowy slang;

W tym przypadku chcieliśmy lepiej spełnić oczekiwania związane z każdym typem podsumowania.

Automatyczna ocena

Automatyczna ocena polega na ocenie jakości danych wyjściowych modelu przez oprogramowanie. Dzięki tej metodzie mogliśmy sprawdzić, czy w podsumowaniach tekstów w języku angielskim występują błędy formatowania, powtórzenia zdań i znaki nienależące do tego języka.

  • Błędy formatowania: sprawdzamy, czy odpowiedzi podsumowania są zgodne z instrukcjami formatowania prompta. Na przykład w przypadku krótkich punktów kluczowych sprawdzamy, czy każdy punkt wyliczenia zaczyna się od gwiazdki (*) i czy liczba punktów wyliczenia nie przekracza 3.

  • Powtarzanie zdań: sprawdzamy, czy w jednym podsumowaniu odpowiedzi powtarza się to samo zdanie, ponieważ wskazuje to na niską jakość odpowiedzi.

  • Znaki inne niż angielskie: sprawdzamy, czy odpowiedź zawiera znaki inne niż angielskie, gdy dane wejściowe mają być w języku angielskim.

  • Hiperlink w wyjściu: sprawdzamy, czy odpowiedź zawiera hiperlinki w formacie Markdown lub w zwykłym tekście, których nie ma w wejściu.

Przeanalizowaliśmy 2 style danych wejściowych: wyekstrahowane artykuły i logi czatu.

  Nagłówek TLDR Najważniejsze kwestie Zwiastun
  Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA
Błędy formatowania 13,54% / 7,05% 41,07% / 4,61% 12,58% / 6,36% 51,17% / 6,74%
Powtórzenie zdania 0,07% / 0,07% 0,21% / 0,0% 0,10% / 0,10% 0,10% / 0,03%
Błędy w językach innych niż angielski 3,95% / 0,03% 1,38% / 0,0% 2,41% / 0,03% 1,44% / 0,0%
hiperlinki, 0,07% / 0,0% 0,14% / 0,0% 0,14% / 0,0% 0,34% / 0,0%
Automatyczna ocena 970 artykułów w różnych typach streszczeń.
  Headline TLDR Kluczowe punkty zwiastun
  Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA
Błąd formatu 13,17% / 0,24% 22,92% / 0,18% 4,43% / 0,09% 29,64% / 3,51%
Powtarzanie zdań 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,03% / 0,0%
Błąd w innym języku niż angielski 0,15% / 0,0% 0,15% / 0,0% 0,03% / 0,0% 0,06% / 0,0%
hiperlinki, 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0% 0,0% / 0,0%
Automatyczna ocena na podstawie 1091 próbek wpisów czatu.

Po dopracowaniu Gemini Nano zaobserwowaliśmy znaczne zmniejszenie odsetka błędów formatowania w różnych typach podsumowań, zarówno w przypadku artykułów, jak i rejestrów czatu.

Ocena narzędzia automatycznej oceny

Do oceny autoratera, która pozwala ocenić jakość wyników Gemini Nano, użyliśmy Gemini 1.5 Pro. Każde podsumowanie ma inny cel, dlatego kryteria i ich wartość różnią się w zależności od typu podsumowania. Wszystkie typy podsumowania zostały ocenione pod kątem:

  • Zakres: czy podsumowanie dokładnie oddaje istotny cel danych wejściowych?
  • Zgodność z prawdą: czy podsumowanie jest zgodne z prawdą? Czy podsumowanie zawiera nowe informacje, które nie zostały wyraźnie podane lub zasugerowane w tekście?
  • Format: czy podsumowanie jest sformatowane za pomocą prawidłowej składni Markdown? Czy podsumowanie jest zgodne z maksymalną długością zdań, zgodnie z wymaganiami?
  • Jasność: czy podsumowanie jest powtarzalne? Czy podsumowanie trafnie przekazuje główną wiadomość w jak najmniejszej liczbie słów?

Ponieważ te typy podsumowań mają różne cele, do poszczególnych typów podsumowań mają zastosowanie dodatkowe dane:

  • Zaangażowanie: (headline): czy podsumowanie jest zrozumiałe dla ogólnej publiczności? Czy podsumowanie jest napisane w taki sposób, aby zainteresować i zaangażować odbiorców?
  • Kondensacja treści (tldr): czy podsumowanie jest jasne, zwięzłe i zrozumiałe dla osób z bardzo krótkim czasem koncentracji? Czy skutecznie przekazuje główną wiadomość w łatwej do przyswojenia formie, która zachęca do szybkiego przeczytania?
  • Zachęcanie do działania (teaser): czy podsumowanie skutecznie wzbudza ciekawość i zachęca czytelnika do przeczytania pełnego tekstu? Czy używa języka, który jest angażujący i sugeruje ciekawe treści?

Korzystając z narzędzie automatycznej oceny, porównaliśmy wyniki modelu podstawowego i modelu z LoRA. Średnia ocen autorów (od 0 do 1) została następnie porównana z wartością progową.

Aby zapewnić rzetelne wyniki, zmniejszyliśmy zmienność danych i zredukowaliśmy pozycjonowanie stron.

  • Zmniejszenie rozproszenia danych: wyniki 3 niezależnych wyjść na dane wejściowe zostały uśrednione, ponieważ niezależne uruchomienia mogą dawać nieco inne wyniki. Obliczyliśmy średnią wyników zarówno dla modelu podstawowego, jak i dostrojonego modelu Gemini Nano. Różnice w wynikach były niewielkie, ale średnie pomagają nam lepiej zrozumieć duże zbiory danych.
  • Ograniczenie wpływu pozycji: aby uniknąć faworyzowania wartości podsumowania udostępnionego najpierw oceniającemu, oceniliśmy wyniki dwukrotnie, a następnie zsumowaliśmy wyniki końcowe.

    1. Najpierw oceniliśmy model z LoRa, a potem model podstawowy.
    2. Następnie cofnęliśmy to zamówienie. Najpierw oceniliśmy model podstawowy, a potem model z LoRA.
    3. Średnia wyników końcowych.
      Short Średnie Długi
      Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA
    LoRA first 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95%
    Najpierw model podstawowy 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35%
    Wersja C (średnia) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65%
    Wyniki w przypadku typu podsumowania key-points. Im wyższa wartość, tym lepsze wyniki.

Chociaż różnice w wynikach uzyskiwanych przez ten sam model były niewielkie, średnie pomagają nam lepiej zrozumieć duże zbiory danych.

W przypadku 500 artykułów dostrojony model Gemini Nano działał znacznie lepiej niż model podstawowy.

  Headline TLDR Kluczowe punkty zwiastun
  Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA
Krótkie 74,74% / 89,12% 55,76% / 89,50% 71,02% / 89,18% 53,47% / 87,14%
Średni 73,10% / 87,89% 41,82% / 81,21% 69,59% / 84,08% 48,98% / 86,74%
Długie 60,99% / 89,32% 50,51% / 84,85% 63,47% / 82,65% 62,65% / 87,55%
Wynik automatycznego rozwiązywania zadań w 500 artykułach o różnej długości i z różnymi typami podsumowania. Im wyższa liczba, tym lepsze wyniki.

Podobnie było w przypadku 500 logów czatów, w których przypadku dopracowany model Gemini Nano okazał się lepszy od modelu podstawowego.

  Headline TLDR Kluczowe punkty zwiastun
  Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA Podstawowy / z LoRA
Short 70,59% / 96,15% 66,27% / 97,79% 81,60% / 97,40% 67,48% / 96,14%
Średnie 76,67% / 95,13% 56,02% / 94,98% 82,60% / 97,20% 50,41% / 96,95%
Długi 59,03% / 94,32% 65,86% / 95,58% 75,00% / 97,60% 70,94% / 97,16%
Wynik automatycznego oceniania w 500 czatach o różnych długościach i rodzajach podsumowania. Im wyższa liczba, tym lepsze wyniki.

Wyniki te pokazują, że nasze dostrojenie poprawiło ogólną jakość podsumowania.

Lepsze podsumowania dzięki LoRA

Tradycyjnie dostrojenie polega na dostosowaniu parametrów modelu. Nowoczesne modele AI są ogromne, więc ta operacja jest powolna, droga i wymaga przechowywania zupełnie nowej kopii modelu.

Zamiast zmieniać wszystkie parametry, co jeśli dodamy małe elementy, które pokierują modelem w chcianym przez nas kierunku? Ich mniejszy rozmiar umożliwia znacznie szybsze trenowanie. Jest to podstawowa zasada adaptacji niskiego rzędu (LoRA). W przypadku LoRA niektóre części modelu pozostają niezmienione, co często nazywa się zamrożeniem parametrów. Następnie wprowadzamy mniejszy zbiór danych z niewielkimi poprawkami, aby skoncentrować wysiłki związane z trenowaniem na tych dodanych elementach.

W praktyce możesz trenować z LoRA zaledwie 2% pierwotnych parametrów, a i tak uzyskać znaczące wyniki.

Dlaczego to działa? Wiele zachowań (np. nowe style, zadania czy wiedza) można uwzględnić bez zmiany wszystkich parametrów modelu. Zmiany te mogą być wyrażane jako małe wzorce lub kierunki w ramach dotychczasowej wiedzy modelu. LoRA skutecznie rejestruje te wzorce bez modyfikowania pierwotnego modelu.

Zapoznaj się z kilkoma przykładami porównań modelu podstawowego Gemini Nano z wynikami po dodaniu LoRA.

Poprosimy Gemini Nano o krótki nagłówek, który „przyciąga uwagę i przekazuje istotę treści” w artykule na temat Parku Narodowego Joshua Tree w Wikipedii.

Gemini Nano Gemini Nano z LoRa
Unikalny krajobraz i historia Parku Narodowego Joshua Tree Joshua Tree: National Park in California, Straddling Deserts & Home to Iconic Trees

Następnie poprosiliśmy Gemini Nano o krótki teaser do artykułu o filmie „Ratatuj się”. „Napisz jedno zachęcające zdanie, które zachęci użytkowników do przeczytania całego tekstu”.

Gemini Nano Gemini Nano z LoRa
Ratatouille to ulubione danie kuchni prowansalskiej, które składa się z duszonych warzyw, często z dodatkiem pomidorów i czosnku. Jego początki sięgają XVIII wieku, a sposób przygotowania ewoluował z czasem. Niektórzy kucharze podkreślają smak poszczególnych warzyw, podczas gdy inni wolą gładszą, bardziej jednolitą konsystencję. Pomimo francuskiego pochodzenia ratatouille zainspirowało podobne dania w różnych kuchniach na całym świecie, w tym piperade ze Hiszpanii i tian z regionu Morza Śródziemnego. Popularność potrawy zwiększył film „Ratatuj się” (2007), który pokazał jej kulinarną wszechstronność i emocjonalny wydźwięk. Ratatouille, francuskie danie z duszonych warzyw z Prowansji, ma bogatą historię kulinarną. Z prostego gulaszu stało się nowoczesnym kulinarnym arcydziełem, które podbiło serca widzów na całym świecie.

Demonstracja wnioskowania w czasie rzeczywistym

Utworzyliśmy interfejs, który pokazuje porównanie wyników między Gemini Nano a Gemini Nano z LoRA.

Poprosimy Gemini Nano o utworzenie podsumowania tldr o długości short na potrzeby artykułu Ocean Sunfish. Pamiętaj, że tldrshort wymagają odpowiedzi w 1 zestawie, który jest „szybki w czytaniu”.

Obserwuj w czasie rzeczywistym, ile czasu zajmuje wygenerowanie wyników i odczytanie danych wyjściowych.

Dzięki dokładnemu dostrojeniu Gemini Nano może lepiej generować podsumowanie, które będzie przestrzegać określonych instrukcji.

Zaangażowanie i przesyłanie opinii

Chętnie poznamy Twoją opinię na temat wpływu dopracowanego Gemini Nano na Twoje podsumowania.

Poznaj wszystkie wbudowane interfejsy AI API, które w przeglądarce korzystają z modeli, w tym dużych modeli językowych.


  1. Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries (ROUGE: pakiet do automatycznej oceny streszczeń). W Tekstowym podsumowaniu, s. 74–81, Barcelona, Hiszpania. Association for Computational Linguistics. 

  2. Kishore Papineni, Salim Roukos, Todd Ward i Wei-Jing Zhu. 2002 r. BLEU: metoda automatycznej oceny tłumaczenia maszynowego. W: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). 

  3. Mousumi Akter, Naman Bansal i Shubhra Kanti Karmaker. 2022 r. Automatyczna ocena zadania polegającego na wyodrębnianiu i streszczaniu treści: czy możemy uzyskać lepsze wyniki niż ROUGE? W publikacji „Findings of the Association for Computational Linguistics: ACL 2022” (Dublin, Irlandia, strony 1547–1560). Association for Computational Linguistics. 

  4. Daniel Deutsch i Dan Roth. 2021. Zrozumienie, w jakim stopniu wskaźniki jakości treści mierzą jakość informacji w podsumowaniach. W Proceedings of the 25th Conference on Computational Natural Language Learning, strony 300–309, online. Association for Computational Linguistics.