Comprendre la gestion des modèles intégrée à Chrome

Publié le 21 octobre 2025

Les fonctionnalités d'IA intégrées optimisées par Gemini Nano sont conçues pour être transparentes pour les utilisateurs et les développeurs. Lorsque vous utilisez une API d'IA intégrée, la gestion des modèles s'effectue automatiquement en arrière-plan. Ce document décrit comment Chrome gère les téléchargements, les mises à jour et les purges du modèle Gemini Nano.

Téléchargement du modèle initial

Lorsqu'un utilisateur télécharge ou met à jour Chrome, Gemini Nano est téléchargé à la demande pour s'assurer que Chrome télécharge le modèle adapté au matériel de l'utilisateur. Le téléchargement initial du modèle est déclenché par le premier appel à une fonction *.create() (par exemple, Summarizer.create()) de n'importe quelle API d'IA intégrée qui dépend de Gemini Nano. Dans ce cas, Chrome effectue une série de vérifications pour déterminer la meilleure marche à suivre. Tout d'abord, Chrome estime les performances du GPU de l'appareil en exécutant un nuanceur représentatif. En fonction de ces résultats, il décide de :

  • Téléchargez une variante plus grande et plus performante de Gemini Nano (par exemple, avec 4 milliards de paramètres).
  • Téléchargez une variante plus petite et plus efficace de Gemini Nano (par exemple, avec 2 milliards de paramètres).
  • Repassez à l'inférence basée sur le processeur si l'appareil répond à des exigences statiques distinctes. Si l'appareil ne répond pas aux exigences matérielles, le modèle n'est pas téléchargé.

Le processus de téléchargement est conçu pour être résilient :

  • Si la connexion Internet est interrompue, le téléchargement reprend là où il s'était arrêté une fois la connexion rétablie.
  • Si l'onglet qui a déclenché le téléchargement est fermé, le téléchargement se poursuit en arrière-plan.
  • Si le navigateur est fermé, le téléchargement reprendra au prochain redémarrage, à condition que le navigateur s'ouvre dans les 30 jours.

Parfois, l'appel de availability() peut déclencher le téléchargement du modèle. Cela se produit si l'appel a lieu peu de temps après le démarrage d'un nouveau profil utilisateur et si la fonctionnalité de détection d'escroquerie optimisée par Gemini Nano est active.

Téléchargement des pondérations LoRA

Certaines API, comme l'API Proofreader, s'appuient sur des pondérations d'adaptation de faible rang (LoRA) qui sont appliquées au modèle de base pour spécialiser sa fonction. Si l'API dépend de LoRA, les pondérations LoRA sont téléchargées en même temps que le modèle de base. Les pondérations LoRA pour les autres API ne sont pas téléchargées de manière proactive.

Mises à jour automatiques des modèles

Les mises à jour du modèle Gemini Nano sont publiées régulièrement. Chrome recherche ces mises à jour au démarrage du navigateur. De plus, Chrome recherche quotidiennement les mises à jour des ressources supplémentaires, comme les pondérations LoRA. Bien que vous ne puissiez pas interroger la version du modèle de manière programmatique à partir de JavaScript, vous pouvez vérifier manuellement la version installée sur chrome://on-device-internals. La procédure de mise à jour est conçue pour être fluide et ne pas entraîner d'interruption :

  • Chrome continue de fonctionner avec le modèle actuel tout en téléchargeant la nouvelle version en arrière-plan.
  • Une fois le modèle mis à jour téléchargé, il est échangé à chaud, ce qui signifie que les modèles sont remplacés sans temps d'arrêt. Tout nouvel appel d'API d'IA utilisera immédiatement le nouveau modèle. Remarque : Il est possible qu'une requête exécutée au moment exact de l'échange échoue.
  • Chaque mise à jour correspond au téléchargement d'un nouveau modèle complet, et non partiel. En effet, les pondérations de modèle peuvent être très différentes d'une version à l'autre, et le calcul et l'application des deltas pour des fichiers aussi volumineux peuvent être lents.

Les mises à jour sont soumises aux mêmes exigences que le téléchargement initial. Toutefois, la vérification initiale de l'espace disque n'est pas effectuée si un modèle est déjà installé. Les pondérations LoRA peuvent également être mises à jour. Une nouvelle version des pondérations LoRA peut être appliquée à un modèle de base existant. Toutefois, une nouvelle version du modèle de base nécessite toujours un nouvel ensemble de pondérations LoRA.

Suppression de modèles

Chrome gère activement l'espace disque pour s'assurer que l'utilisateur ne manque pas de place. Le modèle Gemini Nano est automatiquement supprimé si l'espace disque disponible sur l'appareil passe en dessous d'un certain seuil. De plus, le modèle est supprimé si une règle d'entreprise désactive la fonctionnalité ou si un utilisateur ne répond pas aux autres critères d'éligibilité pendant 30 jours. L'éligibilité peut inclure l'utilisation de l'API et les capacités de l'appareil. Le processus de suppression présente les caractéristiques suivantes :

  • Le modèle peut être supprimé à tout moment, même en cours de session, sans tenir compte des requêtes en cours d'exécution. Cela signifie qu'une API disponible au début d'une session peut soudainement devenir indisponible.
  • Une fois le modèle supprimé, il n'est pas automatiquement retéléchargé. Un nouveau téléchargement doit être déclenché par une application appelant une fonction *.create().
  • Lorsque le modèle de base est supprimé, tous les poids LoRA associés sont également supprimés après un délai de grâce de 30 jours.

Votre rôle dans la gestion des modèles

Pour offrir une expérience utilisateur optimale, il est essentiel de bien comprendre le cycle de vie du modèle d'IA intégré. Vous ne vous contentez pas de télécharger le modèle une seule fois. Vous devez également savoir qu'il peut disparaître soudainement en cas de manque d'espace disque ou être mis à jour lorsqu'une nouvelle version est disponible. Le navigateur s'occupe de tout.

En suivant les bonnes pratiques concernant le téléchargement du modèle, vous offrirez une bonne expérience utilisateur lors du téléchargement initial, des retéléchargements et des mises à jour.