Integrierte Modellverwaltung in Chrome

Veröffentlicht am 21. Oktober 2025

Die integrierten KI-Funktionen, die auf Gemini Nano basieren, sind für Nutzer und Entwickler gleichermaßen konzipiert. Wenn Sie eine integrierte KI-API verwenden, erfolgt die Modellverwaltung automatisch im Hintergrund. In diesem Dokument wird beschrieben, wie Chrome mit dem Herunterladen, Aktualisieren und Löschen von Gemini Nano-Modellen umgeht.

Erster Modelldownload

Wenn ein Nutzer Chrome herunterlädt oder aktualisiert, wird Gemini Nano bei Bedarf heruntergeladen, damit in Chrome das richtige Modell für die Hardware des Nutzers heruntergeladen wird. Der erste Download des Modells wird durch den ersten Aufruf einer *.create()-Funktion (z. B. Summarizer.create()) einer beliebigen integrierten KI-API ausgelöst, die von Gemini Nano abhängt. In diesem Fall führt Chrome eine Reihe von Prüfungen durch, um die beste Vorgehensweise zu ermitteln. Zuerst schätzt Chrome die GPU-Leistung des Geräts, indem ein repräsentativer Shader ausgeführt wird. Anhand dieser Ergebnisse wird entschieden, ob:

  • Laden Sie eine größere, leistungsfähigere Gemini Nano-Variante herunter (z. B. mit 4 Milliarden Parametern).
  • Laden Sie eine kleinere, effizientere Gemini Nano-Variante herunter, z. B. mit 2 Milliarden Parametern.
  • Wechseln Sie zur CPU-basierten Inferenz, wenn das Gerät separate statische Anforderungen erfüllt. Wenn das Gerät die Hardwareanforderungen nicht erfüllt, wird das Modell nicht heruntergeladen.

Der Downloadprozess ist so konzipiert, dass er robust ist:

  • Wenn die Internetverbindung unterbrochen wird, wird der Download fortgesetzt, sobald die Verbindung wiederhergestellt ist.
  • Wenn der Tab, über den der Download ausgelöst wurde, geschlossen wird, wird der Download im Hintergrund fortgesetzt.
  • Wenn der Browser geschlossen wird, wird der Download beim nächsten Start fortgesetzt, sofern der Browser innerhalb von 30 Tagen geöffnet wird.

Manchmal kann der Aufruf von availability() den Modelldownload auslösen. Das passiert, wenn der Anruf kurz nach dem Start eines neuen Nutzerprofils erfolgt und die Funktion Betrugserkennung mit Gemini Nano aktiv ist.

LoRA-Gewichte herunterladen

Einige APIs, z. B. die Proofreader API, basieren auf LoRA-Gewichten (Low-Rank Adaptation), die auf das Basismodell angewendet werden, um seine Funktion zu spezialisieren. Wenn die API von LoRA abhängt, werden die LoRA-Gewichtungen zusammen mit dem Basismodell heruntergeladen. LoRA-Gewichte für andere APIs werden nicht proaktiv heruntergeladen.

Automatische Modellupdates

Updates für das Gemini Nano-Modell werden regelmäßig veröffentlicht. Chrome sucht beim Start des Browsers nach diesen Updates. Außerdem sucht Chrome täglich nach Updates für zusätzliche Ressourcen wie LoRA-Gewichte. Sie können die Modellversion zwar nicht programmatisch über JavaScript abfragen, aber manuell prüfen, welche Version auf chrome://on-device-internals installiert ist. Der Aktualisierungsvorgang ist so konzipiert, dass er nahtlos und ohne Unterbrechungen abläuft:

  • Chrome arbeitet mit dem aktuellen Modell weiter, während die neue Version im Hintergrund heruntergeladen wird.
  • Sobald das aktualisierte Modell heruntergeladen wurde, wird es hot-swapped. Das bedeutet, dass die Modelle ohne Ausfallzeiten ausgetauscht werden. Bei jedem neuen KI-API-Aufruf wird sofort das neue Modell verwendet. Hinweis: Es kann vorkommen, dass ein Prompt, der genau zum Zeitpunkt des Wechsels ausgeführt wird, fehlschlägt.
  • Jedes Update ist ein vollständiger Download eines neuen Modells, kein teilweiser Download. Das liegt daran, dass sich die Modellgewichte zwischen den Versionen erheblich unterscheiden können und das Berechnen und Anwenden von Deltas für so große Dateien langsam sein kann.

Für Updates gelten dieselben Anforderungen wie für den ursprünglichen Download. Die erste Überprüfung des Speicherplatzes wird jedoch übersprungen, wenn bereits ein Modell installiert ist. LoRA-Gewichte können auch aktualisiert werden. Eine neue Version von LoRA-Gewichten kann auf ein vorhandenes Basismodell angewendet werden. Für eine neue Version des Basismodells ist jedoch immer ein neuer Satz von LoRA-Gewichten erforderlich.

Modell löschen

Chrome verwaltet den Speicherplatz aktiv, damit Nutzer nicht in die Situation kommen, dass er nicht mehr ausreicht. Das Gemini Nano-Modell wird automatisch gelöscht, wenn der kostenlose Speicherplatz des Geräts unter einen bestimmten Schwellenwert fällt. Außerdem wird das Modell gelöscht, wenn die Funktion durch eine Unternehmensrichtlinie deaktiviert wird oder wenn ein Nutzer 30 Tage lang andere Berechtigungskriterien nicht erfüllt. Die Berechtigung kann die API-Nutzung und die Gerätefunktionen umfassen. Der Bereinigungsprozess hat die folgenden Eigenschaften:

  • Das Modell kann jederzeit gelöscht werden, auch während einer Sitzung, ohne Rücksicht auf laufende Prompts. Das bedeutet, dass eine API, die zu Beginn einer Sitzung verfügbar war, plötzlich nicht mehr verfügbar sein kann.
  • Nach dem Löschen wird das Modell nicht automatisch neu heruntergeladen. Ein neuer Download muss durch den Aufruf einer *.create()-Funktion durch eine Anwendung ausgelöst werden.
  • Wenn das Basismodell gelöscht wird, werden auch alle zugehörigen LoRA-Gewichte nach einer Kulanzfrist von 30 Tagen gelöscht.

Ihre Rolle bei der Modellverwaltung

Ein gutes Verständnis des Lebenszyklus des integrierten KI-Modells ist entscheidend für eine gute Nutzererfahrung. Das Modell muss nicht nur einmal heruntergeladen werden. Es kann auch sein, dass es aufgrund von Speicherplatzmangel plötzlich wieder verschwindet oder dass es aktualisiert wird, wenn eine neue Version erscheint. Das übernimmt alles der Browser.

Wenn Sie die Best Practices zum Herunterladen des Modells befolgen, sorgen Sie für eine gute Nutzererfahrung beim ersten Herunterladen, beim erneuten Herunterladen und bei Updates.