I/O 2024 Web AI Conclusione: nuovi modelli, strumenti e API per la tua prossima app web

Nell'AI web è cambiato molto nell'ultimo anno. Se te lo sei perso, abbiamo tenuto un intervento a I/O 2024 sui nuovi modelli, strumenti e API per la tua prossima app web.

L'IA web è un insieme di tecnologie e tecniche per utilizzare i modelli di machine learning (ML) lato client in un browser web in esecuzione sulla CPU o sulla GPU di un dispositivo. Questo può essere creato con JavaScript e altre tecnologie web, come WebAssembly e WebGPU. A differenza dell'IA lato server o "IA su cloud", in cui il modello viene eseguito su un server e a cui si accede con un'API.

In questo intervento abbiamo condiviso:

  • Come eseguire i nostri nuovi modelli linguistici di grandi dimensioni (LLM) nel browser e l'impatto dell'esecuzione dei modelli lato client.
  • Uno sguardo al futuro dei blocchi visivi per creare prototipi più velocemente.
  • Inoltre, spiegheremo in che modo gli sviluppatori web possono utilizzare JavaScript in Chrome per lavorare con l'AI web su larga scala.

LLM nel browser

Gemma Web è un nuovo modello aperto di Google che può essere eseguito nel browser sul dispositivo di un utente ed è stato creato sulla base della stessa ricerca e tecnologia utilizzata per creare Gemini.

Se esegui un LLM sul dispositivo, puoi ottenere risparmi sui costi significativi rispetto all'esecuzione su un server cloud per l'inferenza, oltre a una maggiore privacy degli utenti e una latenza ridotta. L'IA generativa nel browser è ancora nelle sue fasi iniziali, ma con il continuo miglioramento dell'hardware (con una maggiore RAM della CPU e della GPU), prevediamo che saranno disponibili più modelli.

Le attività possono ripensare a cosa puoi fare su una pagina web, in particolare per casi d'uso specifici per attività, in cui i pesi di LLM più piccoli (da 2 a 8 miliardi di parametri) possono essere ottimizzati per l'esecuzione su hardware consumer.

Gemma 2B è disponibile per il download su Kaggle Models e viene fornito in un formato compatibile con la nostra API di inferenza LLM web. Altre architetture supportate includono Microsoft Phi-2, Falcon RW 1B e Stable LM 3B, che puoi convertire in un formato utilizzabile dal runtime utilizzando la nostra libreria di conversione.

Crea prototipi più velocemente con Visual Blocks

Con Visual Blocks, puoi eseguire la stima della profondità nel client senza codice.

Stiamo collaborando con Hugging Face, che ha creato 16 nuovi nodi personalizzati per Visual Blocks. In questo modo, Transformers.js e l'ecosistema più ampio di Hugging Face vengono integrati in Visual Blocks.

Otto di questi nuovi nodi vengono eseguiti interamente lato client, con l'AI web, tra cui:

Inoltre, Hugging Face offre sette attività di ML lato server che ti consentono di eseguire migliaia di modelli con API in Visual Blocks. Dai un'occhiata alla raccolta di blocchi visivi Abbracci del viso.

Utilizzare JavaScript per l'AI web su larga scala con Chrome

Nelle istanze precedenti, come con Gemma, il modello viene caricato ed eseguito all'interno della pagina web stessa. Chrome sta lavorando a un'AI integrata sul dispositivo, in cui puoi accedere ai modelli con API JavaScript standardizzate e specifiche per attività.

Ma non è tutto. Chrome ha anche aggiornato WebGPU con il supporto per i valori di virgola flottante di 16 bit.

WebAssembly ha una nuova proposta, Memory64, per supportare gli indici di memoria a 64 bit, che ti consentono di caricare modelli di IA più grandi rispetto a prima.

Iniziare a testare i modelli di IA web con Chrome headless

Ora puoi testare l'IA lato client (o qualsiasi applicazione che richieda il supporto di WebGL o WebGPU) utilizzando Chrome headless, sfruttando al contempo le GPU lato server per l'accelerazione, ad esempio NVIDIA T4 o P100. Scopri di più:

Ricorda, quando condividi le tue creazioni, aggiungi #WebAI in modo che la community più ampia possa vedere il tuo lavoro. Condividi i tuoi risultati e suggerimenti su X, LinkedIn o sulla piattaforma social che preferisci.