Publicado em: 21 de outubro de 2025
Os recursos de IA integrados, com tecnologia de modelos básicos e especializados, foram criados para serem perfeitos para usuários e desenvolvedores. Quando você usa uma API de IA integrada, o gerenciamento de modelos acontece automaticamente em segundo plano. Neste documento, descrevemos como o Chrome processa downloads, atualizações e remoções de modelos de IA.
Download inicial do modelo
Quando um usuário faz o download ou atualiza o Chrome, o modelo é baixado sob demanda para garantir que o Chrome baixe o modelo correto para o hardware do usuário.
O download inicial do modelo é acionado pela primeira chamada a uma função *.create() (por exemplo, Summarizer.create()) de qualquer API de IA
integrada que dependa do Gemini
Nano. Quando isso acontece, o Chrome executa uma série de verificações para determinar a melhor
ação.
Primeiro, o Chrome estima o desempenho da GPU do dispositivo executando um shader representativo. Com base nesses resultados, ele decide:
- Baixe uma variante maior e mais completa do Gemini Nano (como 4 bilhões de parâmetros).
- Baixe uma variante menor e mais eficiente do Gemini Nano (como parâmetros 2B).
- Volte para a inferência baseada em CPU se o dispositivo atender a requisitos estáticos separados. Se o dispositivo não atender aos requisitos de hardware, o modelo não será baixado.
O processo de download foi criado para ser resiliente:
- Se a conexão de Internet for interrompida, o download vai continuar de onde parou quando a conectividade for restabelecida.
- Se a guia que iniciou o download for fechada, o download vai continuar em segundo plano.
- Se o navegador for fechado, o download será retomado no próximo reinício, desde que o navegador seja aberto em até 30 dias.
Às vezes, chamar availability() pode acionar o download do modelo. Isso acontece se a ligação for feita logo após a inicialização de um novo perfil de usuário e se o recurso de detecção de golpes com tecnologia do Gemini Nano estiver ativo.
Download de pesos LoRA
Algumas APIs, como a Proofreader API, usam pesos de adaptação de baixo nível (LoRA, na sigla em inglês) que são aplicados ao modelo de base para especializar a função dele. Se a API depender da LoRA, os pesos dela serão baixados junto com o modelo de base. Os pesos de LoRA para outras APIs não são baixados de forma proativa.
Atualizações automáticas de modelos
As atualizações do modelo Gemini Nano são lançadas regularmente. O Chrome verifica se há
essas atualizações quando o navegador é iniciado. Além disso, o Chrome verifica diariamente se há atualizações de recursos complementares, como pesos de LoRA. Embora não seja possível consultar programaticamente a versão do modelo em JavaScript, você pode verificar manualmente qual versão está instalada em chrome://on-device-internals.
O processo de atualização foi projetado para ser simples e sem interrupções:
- O Chrome continua funcionando com o modelo atual enquanto baixa a nova versão em segundo plano.
- Depois que o modelo atualizado é baixado, ele é trocado dinamicamente, o que significa que os modelos são trocados sem tempo de inatividade. Qualquer nova chamada da API de IA vai usar imediatamente o novo modelo. Observação: é possível que um comando em execução no momento exato da troca falhe.
- Cada atualização é um download completo de um novo modelo, não um download parcial. Isso acontece porque os pesos do modelo podem ser significativamente diferentes entre as versões, e o cálculo e a aplicação de deltas para arquivos tão grandes podem ser lentos.
As atualizações estão sujeitas aos mesmos requisitos do download inicial. No entanto, a verificação inicial de espaço em disco é dispensada se um modelo já estiver instalado. Os pesos da LoRA também podem ser atualizados. Uma nova versão de pesos de LoRA pode ser aplicada a um modelo de base atual. No entanto, uma nova versão do modelo de base sempre requer um novo conjunto de pesos de LoRA.
Exclusão de modelo
O Chrome gerencia ativamente o espaço em disco para garantir que o usuário não fique sem espaço. O modelo Gemini Nano é excluído automaticamente se o espaço livre em disco do dispositivo cair abaixo de um determinado limite. Além disso, o modelo é removido se uma política empresarial desativar o recurso ou se um usuário não atender a outros critérios de qualificação por 30 dias. A qualificação pode incluir o uso da API e a capacidade do dispositivo. O processo de limpeza tem as seguintes características:
- O modelo pode ser excluído a qualquer momento, mesmo no meio de uma sessão, sem considerar os comandos em execução. Isso significa que uma API disponível no início de uma sessão pode ficar indisponível de repente.
- Depois de ser limpo, o modelo não é baixado novamente de forma automática. Um
novo download precisa ser acionado por um aplicativo que chama uma função
*.create(). - Quando o modelo de base é removido, todos os pesos de LoRA relacionados também são removidos após um período de carência de 30 dias.
Seu papel no gerenciamento de modelos
Entender bem o ciclo de vida do modelo de IA integrado é fundamental para acertar a experiência do usuário. Não basta baixar o modelo uma vez. É preciso estar ciente da possibilidade de ele desaparecer repentinamente devido à falta de espaço em disco ou ser atualizado quando uma nova versão for lançada. Tudo isso é feito pelo navegador.
Ao seguir as práticas recomendadas para baixar o modelo, você vai criar uma boa experiência do usuário no download inicial, nos novos downloads e nas atualizações.