Publicado em: 21 de outubro de 2025
Os recursos de IA integrados com tecnologia do Gemini Nano foram criados para serem perfeitos para usuários e desenvolvedores. Quando você usa uma API de IA integrada, o gerenciamento de modelos acontece automaticamente em segundo plano. Este documento descreve como o Chrome processa downloads, atualizações e remoções do modelo Gemini Nano.
Download inicial do modelo
Quando um usuário faz o download ou atualiza o Chrome, o Gemini Nano é
baixado sob demanda
para garantir que o Chrome baixe o modelo correto para o hardware do usuário.
O download inicial do modelo é acionado pela primeira chamada para uma função *.create()
(por exemplo, Summarizer.create()
) de qualquer API de IA integrada que dependa do Gemini Nano. Quando isso acontece, o Chrome executa uma série de verificações para determinar a melhor
ação.
Primeiro, o Chrome estima o desempenho da GPU do dispositivo executando um shader representativo. Com base nesses resultados, ele decide:
- Baixe uma variante maior e mais completa do Gemini Nano (como parâmetros de 4B).
- Baixe uma variante menor e mais eficiente do Gemini Nano (como parâmetros de 2B).
- Volte para a inferência baseada em CPU se o dispositivo atender a requisitos estáticos separados. Se o dispositivo não atender aos requisitos de hardware, o modelo não será baixado.
O processo de download foi criado para ser resiliente:
- Se a conexão de Internet for interrompida, o download vai continuar de onde parou quando a conectividade for restabelecida.
- Se a guia que iniciou o download for fechada, o processo vai continuar em segundo plano.
- Se o navegador for fechado, o download será retomado no próximo reinício, desde que o navegador seja aberto em até 30 dias.
Às vezes, chamar availability()
pode acionar o download do modelo. Isso acontece
se a ligação for feita logo após a inicialização de um novo perfil de usuário e se o recurso de
detecção de golpes com tecnologia do Gemini Nano
estiver ativo.
Download de pesos LoRA
Algumas APIs, como a Proofreader API, usam pesos de adaptação de baixo nível (LoRA, na sigla em inglês) que são aplicados ao modelo de base para especializar a função dele. Se a API depender da LoRA, os pesos da LoRA serão baixados junto com o modelo de base. Os pesos de LoRA para outras APIs não são baixados de forma proativa.
Atualizações automáticas de modelos
As atualizações do modelo Gemini Nano são lançadas regularmente. O Chrome verifica se há
essas atualizações quando o navegador é iniciado. Além disso, o Chrome verifica diariamente se há atualizações de recursos complementares, como pesos LoRA. Embora não seja possível consultar programaticamente a versão do modelo em JavaScript, você pode verificar manualmente qual versão está instalada no chrome://on-device-internals
.
O processo de atualização foi projetado para ser simples e sem interrupções:
- O Chrome continua funcionando com o modelo atual enquanto baixa a nova versão em segundo plano.
- Depois que o modelo atualizado é baixado, ele é trocado dinamicamente, o que significa que os modelos são trocados sem tempo de inatividade. Qualquer nova chamada da API de IA vai usar imediatamente o novo modelo. Observação: é possível que um comando em execução no momento exato da troca falhe.
- Cada atualização é um download completo de um novo modelo, não um download parcial. Isso acontece porque os pesos do modelo podem ser significativamente diferentes entre as versões, e o cálculo e a aplicação de deltas para arquivos tão grandes podem ser lentos.
As atualizações estão sujeitas aos mesmos requisitos do download inicial. No entanto, a verificação inicial de espaço em disco é dispensada se um modelo já estiver instalado. Os pesos da LoRA também podem ser atualizados. Uma nova versão de pesos LoRA pode ser aplicada a um modelo de base atual. No entanto, uma nova versão do modelo de base sempre requer um novo conjunto de pesos de LoRA.
Exclusão de modelo
O Chrome gerencia ativamente o espaço em disco para garantir que o usuário não fique sem espaço. O modelo Gemini Nano é excluído automaticamente se o espaço livre em disco do dispositivo cair abaixo de um determinado limite. Além disso, o modelo é excluído se uma política empresarial desativar o recurso ou se um usuário não atender a outros critérios de qualificação por 30 dias. A qualificação pode incluir o uso da API e a capacidade do dispositivo. O processo de exclusão tem as seguintes características:
- O modelo pode ser excluído a qualquer momento, mesmo no meio de uma sessão, sem considerar os comandos em execução. Isso significa que uma API que estava disponível no início de uma sessão pode ficar indisponível de repente.
- Depois de ser limpo, o modelo não é baixado novamente de forma automática. Um
novo download precisa ser acionado por um aplicativo que chama uma função
*.create()
. - Quando o modelo de base é removido, todos os pesos de LoRA relacionados também são removidos após um período de carência de 30 dias.
Seu papel no gerenciamento de modelos
Entender bem o ciclo de vida do modelo de IA integrado é fundamental para oferecer a experiência do usuário certa. Não basta baixar o modelo uma vez. É preciso estar ciente da possibilidade de ele desaparecer repentinamente devido à falta de espaço em disco ou de ser atualizado quando uma nova versão for lançada. Tudo isso é processado pelo navegador.
Seguindo as práticas recomendadas para baixar o modelo, você vai criar uma boa experiência do usuário no download inicial, nos downloads repetidos e nas atualizações.