IA integrada

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Publicado em 14 de maio de 2024

Quando criamos recursos com modelos de IA na Web, geralmente usamos soluções do lado do servidor para modelos maiores. Isso vale principalmente para a IA generativa, em que até os modelos menores são cerca de mil vezes maiores do que tamanho médio da página da Web. Isso também é verdade para outros casos de uso de IA, em que os modelos podem variar de 10 a 100 megabytes.

Como esses modelos não são compartilhados entre sites, cada site precisa fazer o download deles no carregamento da página. Essa é uma solução impraticável para desenvolvedores e usuários

Ainda que a IA do lado do servidor seja uma ótima opção para modelos grandes, híbridos e no dispositivo têm suas próprias vantagens atraentes. Para tornar abordagens viáveis, precisamos abordar o tamanho e a entrega do modelo.

É por isso que estamos desenvolvendo APIs de plataforma da web e recursos de navegador projetados para integrar modelos de IA, inclusive modelos de linguagem grande (LLMs), diretamente nas navegador. Isso inclui Gemini Nano, a versão mais eficiente da família de LLMs do Gemini, projetada para execução local na maioria dos computadores e laptops modernos. Com IA integrada, seu site ou aplicativo da Web pode realizar tarefas com tecnologia de IA sem precisar implantar ou gerenciar modelos de IA próprios.

Conheça os benefícios da IA integrada, conheça nosso plano de implementação e saiba como aproveitar essa tecnologia.

Confira uma prévia

Precisamos da sua contribuição para moldar as APIs, garantir que elas atendam aos seus casos de uso e informar nossas discussões com outros fornecedores de navegadores para padronização.

Participe do nosso programa de pré-lançamento para dar feedback sobre ideias de IA integradas em estágio inicial e descobrir oportunidades para testar APIs em andamento com prototipagem local.

Participe do grupo de avisos públicos para desenvolvedores de IA do Chrome para receber notificações quando novas APIs estiverem disponíveis.

Benefícios da IA integrada para desenvolvedores Web

Com a IA integrada, o navegador fornece e gerencia modelos de base e modelos de especialistas.

Em comparação com a IA no dispositivo, a IA integrada oferece os seguintes benefícios:

  • Facilidade de implantação: conforme o navegador distribui os modelos, ele leva a capacidade do dispositivo e gerencia as atualizações do modelo. Isso ou seja, você não é responsável pelo download ou atualização de modelos grandes em uma rede VPC. Você não precisa resolver a exclusão de armazenamento, o orçamento de memória de execução, os custos de veiculação e outros desafios.
  • Acesso à aceleração de hardware: o ambiente de execução da IA do navegador é otimizado para aproveitar ao máximo o hardware disponível, seja ele uma GPU, um NPU ou de volta à CPU. Consequentemente, o app pode ter o melhor desempenho em cada dispositivo.

Benefícios da execução no dispositivo

Com uma abordagem de IA integrada, fica fácil realizar tarefas de IA no dispositivo, o que oferece as seguintes vantagens:

  • Processamento local de dados sensíveis: a IA no dispositivo pode melhorar sobre privacidade. Por exemplo, se você trabalha com dados sensíveis, pode oferecer recursos de IA aos usuários com criptografia de ponta a ponta.
  • Experiência do usuário ágil: em alguns casos, deixar a ida e volta para o servidor de anúncios significa que você pode oferecer resultados quase instantâneos. A IA no dispositivo pode ser diferença entre um recurso viável e uma experiência do usuário abaixo do ideal.
  • Maior acesso à IA: os dados dos seus usuários dispositivos podem assumir algumas carga de processamento em troca de mais acesso a atributos. Por exemplo, se você oferecer recursos premium de IA, poderá mostrar uma prévia deles com a IA no dispositivo para que os clientes em potencial conheçam os benefícios do seu produto sem custo extra. Essa abordagem híbrida também pode ajudar a gerenciar os custos de inferência, especialmente em fluxos de usuários usados com frequência.
  • Uso de IA off-line: seus usuários podem acessar recursos de IA mesmo quando não há conexão com a Internet. Isso significa que seus sites e apps da Web podem funcionar conforme o esperado off-line ou com conectividade variável.

IA híbrida: no dispositivo e no lado do servidor

Embora a IA no dispositivo possa lidar com uma grande variedade de casos de uso, há certos usos em casos que exigem suporte do lado do servidor.

Por exemplo, talvez seja necessário usar modelos maiores ou oferecer suporte a uma variedade maior de plataformas e dispositivos.

Você pode considerar abordagens híbridas, dependendo de:

  • Complexidade: casos de uso específicos e acessíveis são mais fáceis de oferecer suporte com IA no dispositivo. Para casos de uso complexos, considere a implementação do lado do servidor.
  • Resiliência: use o lado do servidor por padrão e use no dispositivo quando ele estiver off-line ou com uma conexão instável.
  • Fallback suave: a adoção de navegadores com IA integrada vai levar tempo. Alguns modelos podem não estar disponíveis, e dispositivos mais antigos ou menos potentes podem não atender aos requisitos de hardware para executar todos os modelos de maneira ideal. Ofereça IA no servidor para esses usuários.

Para modelos Gemini, é possível usar a integração de back-end (com Python, Go, Node.js ou REST) ou implementar no seu aplicativo da Web com o novo SDK do cliente da Google AI para Web.

Arquitetura do navegador e APIs

Para oferecer suporte à IA integrada no Chrome, criamos uma infraestrutura para acessar e modelos especializados para execução no dispositivo. Essa infraestrutura já está por meio de recursos inovadores de navegação, como Quero ajuda para escrever e, em breve, alimentará APIs para IA no dispositivo.

Você vai acessar os recursos integrados de IA principalmente com APIs de tarefas, como uma API de tradução ou uma API de resumo. As APIs Task são projetadas para executar inferência no melhor modelo para o atribuição.

No Chrome, essas APIs são criadas para executar inferência no Gemini Nano com ou um modelo especialista. Projetado para ser executado localmente na maioria dos dispositivos modernos, O Gemini Nano é ideal para casos de uso relacionados a linguagem, como resumo, reformulação ou categorização.

Além disso, pretendemos oferecer APIs de exploração para que você possa testar localmente e compartilhar outros casos de uso.

Por exemplo, podemos fornecer:

  • API Prompt: envie uma tarefa arbitrária, expressa em linguagem natural, para o modelo de linguagem grande integrado (Gemini Nano no Chrome).
  • API de ajuste fino (LoRA): melhorar o desempenho do LLM integrado em uma tarefa ajustando os pesos do modelo com Adaptação de classificação baixa para fazer ajustes.
Este diagrama demonstra como seu site ou app pode usar APIs de tarefas e da plataforma exploratória da Web para acessar modelos integrados ao Chrome.

Quando usar a IA integrada

Confira alguns benefícios que a IA integrada pode trazer para você e seus usuários:

  • Consumo de conteúdo aprimorado por IA: incluindo resumo, tradução, resposta a perguntas sobre algum conteúdo, categorização e caracterização.
  • Criação de conteúdo com suporte de IA: como assistência de escrita, revisão, correção gramatical e reformulação.

A seguir

Participe do nosso programa de testes iniciais para testar APIs de IA integradas em estágio inicial.

Enquanto isso, aprenda a usar o Gemini Pro nos servidores do Google com seus sites e apps da Web no Programa de início rápido do SDK JavaScript da IA do Google.