Guarda i nostri interventi sull'IA al Google I/O 2025

Alexandra Klepper
Alexandra Klepper

Data di pubblicazione: 22 maggio 2025

L'AI sta trasformando il modo in cui gli sviluppatori web creano siti web e applicazioni web. Al Google I/O 2025 abbiamo condiviso i nostri progetti dell'ultimo anno, mostrato come i nostri partner utilizzano l'AI sul web e annunciato nuove API AI integrate.

Hai perso l'evento? Buone notizie: ora puoi guardare i talk on demand.

AI integrata pratica con Gemini Nano in Chrome

La nostra missione principale è rendere Chrome e il web più intelligenti per tutti gli sviluppatori e tutti gli utenti. In questo intervento, Thomas Steiner condivide gli aggiornamenti dell'AI integrata, casi d'uso pratici e uno sguardo al nostro futuro.

L'AI integrata esegue modelli lato client nel browser, il che presenta diversi vantaggi:

  • Privati: i dati sensibili dell'utente rimangono sul dispositivo e non devono mai uscire dal browser.
  • Offline: le applicazioni possono accedere alle funzionalità di AI, anche senza una connessione a internet.
  • Efficienti: grazie all'accelerazione hardware, queste API offrono prestazioni eccellenti.

Dai un'occhiata agli esempi di codice per ciascuna delle API AI integrate, ricevi un aggiornamento sul loro stato e scopri quali aziende stanno implementando questa tecnologia.

API multimodali

Stiamo lavorando a nuove API multimodali. Ciò significa che puoi chiedere a Gemini Nano cosa "vede" nei contenuti visivi o cosa "sente" nei contenuti audio. Ad esempio, ricevere suggerimenti per il testo alternativo delle immagini caricate su una piattaforma di blog, che gli utenti possono perfezionare e modificare. In alternativa, puoi chiedere a Gemini Nano di scrivere descrizioni o trascrizioni per i podcast.

IA ibrida

Una delle sfide che gli sviluppatori devono affrontare con l'AI lato client è che non tutte le piattaforme e i browser soddisfano i requisiti hardware per eseguire un modello sul dispositivo. Gemini e Firebase hanno collaborato per creare l'SDK web di Firebase in modo che, quando le implementazioni lato client non sono disponibili, tu possa eseguire il fallback a Gemini Nano su un server.

Collaborare con te

Siamo felici di aver collaborato con così tanti sviluppatori sulle API AI integrate. I nostri sforzi non sarebbero possibili senza di te.

Il tuo lavoro non è finito. Continua a condividere il tuo feedback, a testare le nuove API integrate e noi continueremo a migliorare. Puoi anche contribuire a standardizzare queste API unendoti al Web Machine Learning Community Group del W3C.

Il futuro delle estensioni di Chrome con Gemini nel browser

Il numero di estensioni basate sull'AI è raddoppiato negli ultimi due anni. Infatti, il 10% di tutte le estensioni installate dal Chrome Web Store utilizza l'AI. In questo intervento, Sebastian Benz fornisce esempi pratici del perché le estensioni di Chrome e Gemini sono una combinazione così potente.

Gli esempi vanno da come rendere il browser più utile estraendo ed elaborando i dati dai siti web sul client utilizzando la nuova API di prompt di Chrome.

Over ha dimostrato il potenziale delle nuove funzionalità multimodali dell'API di richiesta di Chrome nelle estensioni di Chrome per rendere audio e immagini più accessibili agli utenti.

Per dare un'occhiata al futuro della navigazione, spiegando come il progetto Mariner di Google DeepMind utilizza le estensioni di Chrome e le ultime API Gemini Cloud per creare un agente browser completo.

Esplora il potenziale di Gemini nel cloud o nel browser nelle estensioni di Chrome per creare nuove esperienze di navigazione e rendere il browser più utile.

Casi d'uso e strategie dell'AI web nel mondo reale

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota e Swetha Gopalakrishnan hanno evidenziato esempi reali di aziende che utilizzano l'AI sul web per migliorare la propria attività e l'esperienza utente.Indipendentemente dal fatto che la loro soluzione utilizzi modelli lato client, lato server o una soluzione ibrida, ciò che conta sono le nuove entusiasmanti funzioni e funzionalità che metti a disposizione dei tuoi utenti, proprio ora.

BILIBILI ha reso i suoi stream video più coinvolgenti con una nuova funzionalità: i commenti a scorrimento. Offrono commenti degli utenti in tempo reale nel video, visualizzati dietro l'oratore. Per farlo, utilizzano la segmentazione delle immagini, un concetto di machine learning ben compreso. Di conseguenza, la durata della sessione è aumentata del 30%. Tokopedia ha ridotto l'attrito nel processo di verifica dei venditori utilizzando un modello di rilevamento del volto per valutare la qualità delle foto caricate. Di conseguenza, hanno ridotto le approvazioni manuali di quasi il 70%.

Vision Nanny, una piattaforma web per bambini con disabilità visiva cerebrale (CVI), fornisce attività di stimolazione visiva basate sull'AI. Utilizzano più librerie MediaPipe, incluso il modello di rilevamento dei punti di riferimento della mano, che individua i punti chiave delle mani in un'immagine, un video o in tempo reale. Un progetto pilota con 50 bambini ha dimostrato che Vision Nanny ha fornito risposte 5 volte più velocemente rispetto alle attività di stimolazione visiva manuale. I terapisti hanno dichiarato di risparmiare in media tre ore per sessione eliminando la configurazione manuale.

Google Meet dispone di diverse funzionalità abilitate dall'AI, dal miglioramento dell'illuminazione alla riduzione della sfocatura e dei video sfocati. La sfida più grande è che queste funzionalità devono funzionare in tempo reale. È qui che entra in gioco WebAssembly (Wasm), per sfruttare tutta la potenza della CPU di un computer e consentire l'elaborazione video in tempo reale.

Questi sono solo alcuni esempi reali di AI sul web. Diverse altre aziende hanno sperimentato le API AI integrate, alcune delle quali hanno condiviso il loro lavoro in case study.

Agenti AI web lato client per creare esperienze utente future più intelligenti

Jason Mayes ha illustrato il futuro di internet: gli agenti di AI per il web. Il web ha un futuro basato sugli agenti, che portano le funzionalità di AI direttamente nel browser, per svolgere attività utili per tuo conto, al di là delle capacità dei modelli linguistici di grandi dimensioni (LLM).

Con un approccio lato client, si ottengono maggiore privacy, latenza ridotta e potenziali risparmi sui costi significativi. Gli agenti ti consentono di eseguire l'upgrade del tuo sito web esistente per eseguire attività in modo autonomo per un utente, selezionando e utilizzando dinamicamente gli strumenti esposti, potenzialmente in un ciclo, consentendo all'agente di completare attività potenzialmente complesse o in più passaggi.

Gli agenti possono:

  • Pianifica e dividi le attività secondarie, gestendo problemi più complessi tramite la pianificazione in più fasi per suddividere l'attività in passaggi logici da completare.
  • Seleziona gli strumenti migliori, che si tratti di funzioni, utilizzo di API o accesso al datastore per la conoscenza di base del modello linguistico aumentato, quindi esegui azioni sul mondo esterno.
  • Mantiene la memoria basata sul contesto, in base agli output precedenti dell'agente o di strumenti esterni. La memoria a breve termine funge da buffer FIFO della cronologia del contesto fino alle dimensioni della finestra contestuale del modello, mentre la memoria a lungo termine può utilizzare un database vettoriale per archiviare le informazioni da richiamare all'occorrenza da sessioni di conversazione precedenti o da altre origini dati.

Gli agenti di AI web sono progettati per integrarsi nelle tecnologie web esistenti in JavaScript. In definitiva, è importante continuare ad accelerare il nostro hardware per eseguire al meglio i modelli nel browser. Guardando al futuro, tecnologie come WebNN svolgeranno un ruolo chiave nell'ottimizzazione dell'esecuzione dei modelli su CPU, GPU e NPU. Con la tendenza verso LLM più piccoli e il continuo progresso, questa tecnologia diventerà sempre più potente in futuro.

Valuta la possibilità di utilizzare un approccio ibrido, combinando l'elaborazione sul dispositivo con chiamate strategiche al cloud, in modo da poter creare esperienze utente intelligenti, reattive e personalizzate nel browser fin da subito. Presto, il tuo investimento nell'approccio Web AI dovrebbe dare i suoi frutti man mano che i dispositivi diventano più capaci di eseguire LLM.

Recupera i contenuti di Google I/O 2025

Abbiamo pubblicato tutti i talk di Google I/O 2025, con una playlist dedicata agli sviluppatori web. Scopri di più su io.google/2025.