Sono cambiate molte cose nell'IA web nell'ultimo anno. Se ti è sfuggito, all'I/O 2024 abbiamo parlato dei nuovi modelli, strumenti e API per la tua prossima app web.
L'IA web è un insieme di tecnologie e tecniche per utilizzare i modelli di machine learning (ML) lato client in un browser web in esecuzione sulla CPU o sulla GPU di un dispositivo. Può essere creato con JavaScript e altre tecnologie web, come WebAssembly e WebGPU. Questo è diverso dall'IA lato server o dall'"IA Cloud", in cui il modello viene eseguito su un server e a cui si accede tramite un'API.
In questa presentazione, abbiamo condiviso:
- come eseguire i nostri nuovi modelli linguistici di grandi dimensioni (LLM) nel browser e l'impatto dell'esecuzione dei modelli lato client;
- Uno sguardo al futuro di Display Blocchi per velocizzare i prototipi;
- E su come gli sviluppatori web possono usare JavaScript in Chrome per lavorare con l'IA web su larga scala.
LLM nel browser
Gemma Web è un nuovo modello aperto di Google che può essere eseguito nel browser sul dispositivo dell'utente e basato sulla stessa ricerca e tecnologia impiegata per creare Gemini.
Portando un LLM on-device, esiste un potenziale significativo di risparmio sui costi rispetto all'esecuzione su un cloud server per l'inferenza, insieme a una maggiore privacy dell'utente e a una latenza ridotta. L'IA generativa nel browser è ancora nelle sue fasi iniziali, ma poiché l'hardware continua a migliorare (con CPU e RAM GPU più elevate), ci aspettiamo che siano disponibili altri modelli.
Le aziende possono reinventare ciò che puoi fare su una pagina web, soprattutto per casi d'uso specifici delle attività, dove i pesi degli LLM più piccoli (da 2 a 8 miliardi di parametri) possono essere ottimizzati per l'esecuzione su hardware di consumo.
Gemma 2B è disponibile per il download su Kaggle Models ed è disponibile in un formato compatibile con la nostra API di inferenza LLM web. Altre architetture supportate includono Microsoft Phi-2, Falcon RW 1B e Stable LM 3B, che puoi convertire in un formato utilizzabile dal runtime mediante la nostra libreria di conversione.
Crea prototipi più veloci con Visual Blocks
Stiamo collaborando con Hugging Face, che ha creato 16 nuovi nodi personalizzati per i blocchi visivi. In questo modo, Transformers.js e il più ampio ecosistema di Viso che abbracciano i blocchi visivi sono disponibili in Visual Blocks.
Otto di questi nuovi nodi sono eseguiti interamente sul lato client, con Web AI, tra cui:
- Segmentazione delle immagini
- Traduzioni
- Classificazione dei token
- Rilevamento di oggetti
- Classificazione del testo
- Rimozione sfondo
- Stima della profondità
Inoltre, ci sono sette attività ML lato server di Hugging Face che consentono di eseguire migliaia di modelli con API in Visual Blocks. Dai un'occhiata alla raccolta "Hugging Face Visual Blocks".
Usa JavaScript per l'IA web su larga scala con Chrome
Nelle istanze precedenti, ad esempio in Gemma, il modello viene caricato ed eseguito all'interno della pagina web stessa. Chrome sta lavorando all'IA integrata e on-device, che consente di accedere a modelli con API JavaScript standardizzate e specifiche per le attività.
E non solo. Chrome ha anche aggiornato WebGPU con il supporto per i valori in virgola mobile a 16 bit.
WebAssembly ha una nuova proposta, Memory64, per supportare indici di memoria a 64 bit, che consentono di caricare modelli IA più grandi rispetto a prima.
Inizia a testare i modelli Web AI con Chrome headless
Ora puoi testare l'IA lato client (o qualsiasi applicazione che richieda il supporto di WebGL o WebGPU) utilizzando Chrome headless, utilizzando al contempo GPU lato server per l'accelerazione, come NVIDIA T4 o P100. Scopri di più:
Ricorda: quando condividi ciò che crei, aggiungi #WebAI in modo che la community possa vedere il tuo lavoro. Condividi risultati e suggerimenti su X, LinkedIn o sulla piattaforma social che preferisci.