Encerramento do I/O 2024 sobre IA da Web: novos modelos, ferramentas e APIs para seu próximo app da Web

Alexandra Klepper
Alexandra Klepper

Muita coisa mudou na IA da Web no último ano. Se você perdeu, fizemos uma palestra no I/O 2024 sobre os novos modelos, ferramentas e APIs para seu próximo web app.

A IA na Web é um conjunto de tecnologias e técnicas para usar modelos de aprendizado de máquina (ML) no lado do cliente em um navegador da Web executado na CPU ou GPU de um dispositivo. Ele pode ser criado com JavaScript e outras tecnologias da Web, como WebAssembly e WebGPU. Isso é diferente da IA do lado do servidor ou "IA na nuvem", em que o modelo é executado em um servidor e acessado com uma API.

Nesta conversa, compartilhamos:

  • Como executar nossos novos modelos de linguagem grandes (LLMs) no navegador e o impacto de executar modelos do lado do cliente;
  • Uma olhada no futuro dos Blocos visuais para criar protótipos mais rápido;
  • E como os desenvolvedores da Web podem usar JavaScript no Chrome para trabalhar com IA da Web em grande escala.

LLMs no navegador

O Gemma Web é um novo modelo aberto do Google que pode ser executado no navegador do dispositivo de um usuário. Ele foi criado com a mesma pesquisa e tecnologia usadas para criar o Gemini.

Ao trazer um LLM para o dispositivo, há um potencial significativo de economia de custos em comparação com a execução em um servidor de nuvem para inferência, além de maior privacidade do usuário e latência reduzida. A IA generativa no navegador ainda está nos estágios iniciais, mas, à medida que o hardware continua melhorando (com mais RAM de CPU e GPU), esperamos que mais modelos fiquem disponíveis.

As empresas podem reimaginar o que é possível fazer em uma página da Web, especialmente para casos de uso específicos de tarefas, em que os pesos de LLMs menores (de 2 a 8 bilhões de parâmetros) podem ser ajustados para serem executados em hardware de consumo.

O Gemma 2B está disponível para download no Kaggle Models e vem em um formato compatível com nossa API de inferência de LLM da Web. Outras arquiteturas compatíveis incluem Microsoft Phi-2, Falcon RW 1B e Stable LM 3B, que podem ser convertidas para um formato que o ambiente de execução pode usar com nossa biblioteca de conversão.

Crie protótipos mais rápidos com blocos visuais

Com os blocos visuais, é possível executar a estimativa de profundidade no cliente sem código.

Estamos colaborando com a Hugging Face, que criou 16 novos nós personalizados para os Blocos visuais. Isso traz o Transformers.js e o ecossistema mais amplo do Hugging Face para os blocos visuais.

Oito desses novos nós são executados totalmente no lado do cliente com a IA da Web, incluindo:

Além disso, há sete tarefas de ML do lado do servidor do Hugging Face que permitem executar milhares de modelos com APIs no Visual Blocks. Confira a coleção de blocos visuais do Hugging Face.

Use o JavaScript para IA na Web em grande escala com o Chrome

Nas instâncias anteriores, como com a Gemma, o modelo é carregado e executado na própria página da Web. O Chrome está trabalhando em uma IA integrada no dispositivo, em que você pode acessar modelos com APIs JavaScript padronizadas e específicas para tarefas.

E isso não é tudo. O Chrome também atualizou o WebGPU com suporte a valores de ponto flutuante de 16 bits.

O WebAssembly tem uma nova proposta, Memory64, para compatibilidade com índices de memória de 64 bits, o que permite carregar modelos de IA maiores do que antes.

Começar a testar modelos de IA da Web com o Chrome sem interface gráfica

Agora é possível testar a IA do lado do cliente (ou qualquer aplicativo que precise de suporte para WebGL ou WebGPU) usando o Chrome sem interface gráfica, enquanto aproveita as GPUs do lado do servidor para aceleração, como uma NVIDIA T4 ou P100. Saiba mais:

Não se esqueça de adicionar #WebAI ao compartilhar suas criações para que a comunidade em geral possa ver seu trabalho. Compartilhe suas descobertas e sugestões no X, LinkedIn ou na plataforma social que você preferir.