Muita coisa mudou na IA da Web no último ano. Caso você não tenha visto, fizemos uma palestra no Google I/O 2024 sobre os novos modelos, ferramentas e APIs para seu próximo app da Web.
A IA da Web é um conjunto de tecnologias e técnicas para usar modelos de aprendizado de máquina (ML) do lado do cliente em um navegador da Web em execução na CPU ou GPU de um dispositivo. Isso pode ser criado com JavaScript e outras tecnologias da Web, como WebAssembly e WebGPU. Isso é diferente da IA do lado do servidor ou da "IA do Cloud", em que o modelo é executado em um servidor e é acessado com uma API.
Nesta palestra, compartilhamos:
- Como executar nossos novos modelos de linguagem grandes (LLMs) no navegador e o impacto da execução de modelos do lado do cliente;
- Um vislumbre do futuro dos Visual Blocks para criar protótipos mais rapidamente;
- E como os desenvolvedores da Web podem usar o JavaScript no Chrome para trabalhar com a IA da Web em grande escala.
LLMs no navegador
O Gemma Web é um novo modelo aberto do Google que pode ser executado no navegador do dispositivo de um usuário, criado com a mesma pesquisa e tecnologia usadas para criar o Gemini.
Ao usar um LLM no dispositivo, há um potencial significativo de economia de custos em comparação com a execução em um servidor de nuvem para inferência, além de melhorar a privacidade do usuário e reduzir a latência. A IA generativa no navegador ainda está nos estágios iniciais, mas, à medida que o hardware continua melhorando (com mais RAM de CPU e GPU), esperamos que mais modelos fiquem disponíveis.
As empresas podem repensar o que você pode fazer em uma página da Web, especialmente para casos de uso específicos de tarefas, em que os pesos de LLMs menores (de 2 a 8 bilhões de parâmetros) podem ser ajustados para serem executados em hardwares de consumo.
O Gemma 2B está disponível para download no Kaggle Models e tem um formato compatível com nossa API de inferência de LLM da Web. Outras arquiteturas com suporte incluem Microsoft Phi-2, Falcon RW 1B e Stable LM 3B, que podem ser convertidas em um formato que o ambiente de execução pode usar usando nossa biblioteca de conversão.
Crie protótipos mais rapidamente com os blocos visuais
Estamos colaborando com a Hugging Face, que criou 16 novos nós personalizados para os Blocos visuais. Isso traz Transformers.js e o ecossistema mais amplo do Hugging Face para os blocos visuais.
Oito desses novos nós são executados totalmente no lado do cliente, com a IA da Web, incluindo:
- Segmentação de imagens
- Tradução
- Classificação de tokens
- Detecção de objetos
- Classificação de texto
- Remoção do plano de fundo
- Estimativa de profundidade
Além disso, há sete tarefas de ML do lado do servidor do Hugging Face que permitem executar milhares de modelos com APIs no Visual Blocks. Confira a coleção de blocos visuais do Hugging Face.
Usar o JavaScript para IA da Web em grande escala com o Chrome
Nas instâncias anteriores, como com Gemma, o modelo é carregado e executado na própria página da Web. O Chrome está trabalhando na IA integrada ao dispositivo, em que é possível acessar modelos com APIs JavaScript padronizadas e específicas para tarefas.
E isso não é tudo. O Chrome também atualizou a WebGPU com suporte a valores de ponto flutuante de 16 bits.
O WebAssembly tem uma nova proposta, Memory64, para oferecer suporte a índices de memória de 64 bits, o que permitiria carregar modelos de IA maiores do que antes.
Começar a testar modelos de IA da Web com o Chrome sem cabeça
Agora é possível testar a IA do lado do cliente (ou qualquer aplicativo que precise de suporte a WebGL ou WebGPU) usando o Chrome sem cabeça, enquanto usa GPUs do lado do servidor para aceleração, como uma NVIDIA T4 ou P100. Saiba mais:
- Executar no Google Colab
- Leia uma análise detalhada de testes
- Confira o exemplo de código no GitHub.
Quando compartilhar o que você criou, adicione #WebAI para que a comunidade mais ampla possa acessar seu trabalho. Compartilhe suas descobertas e sugestões no X, no LinkedIn ou na plataforma social que preferir.