Pubblicato il 14 maggio 2024, ultimo aggiornamento il 13 novembre 2024
Quando sviluppiamo funzionalità con modelli di IA sul web, spesso ci affidiamo a soluzioni lato server per i modelli più grandi. Ciò è particolarmente vero per l'IA generativa, in cui persino i modelli più piccoli sono circa mille volte più grandi delle dimensioni medie di una pagina web. Lo stesso vale per altri casi d'uso dell'IA, in cui i modelli possono variare da decine a centinaia di megabyte. Poiché questi modelli non sono condivisi tra i siti web, ogni sito deve scaricarli al caricamento della pagina. Questo non è pratico per sviluppatori e utenti.
Stiamo sviluppando API di piattaforme web e funzionalità del browser progettate per integrare i modelli di IA, inclusi i modelli linguistici di grandi dimensioni (LLM), direttamente nel browser. Sono inclusi Gemini Nano, la versione più efficiente della famiglia di LLM Gemini, progettata per funzionare localmente sulla maggior parte dei computer desktop e laptop moderni. Con l'AI integrata, il tuo sito web o la tua applicazione web può eseguire attività basate sull'AI senza dover eseguire il deployment o gestire i propri modelli di IA.
Scopri i vantaggi dell'IA integrata, il nostro piano di implementazione e come puoi usufruire di questa tecnologia.
Visualizza un'anteprima
Abbiamo bisogno del tuo contributo per definire le API, assicurarci che soddisfino i tuoi casi d'uso e informare le nostre discussioni con altri fornitori di browser per la standardizzazione.
Partecipa al nostro programma di anteprima per fornire feedback sulle idee di IA integrata nelle prime fasi e scoprire opportunità per testare le API in fase di sviluppo tramite la prototipazione locale.
Unisciti al gruppo di annunci pubblici per gli sviluppatori di IA di Chrome per ricevere una notifica quando diventano disponibili nuove API.
Vantaggi dell'IA integrata per gli sviluppatori web
Con l'IA integrata, il browser fornisce e gestisce modelli di base e di esperti.
Rispetto alla creazione di un'IA lato client, l'IA integrata offre i seguenti vantaggi:
- Facilità di implementazione: quando il browser distribuisce i modelli, prende in considerazione la funzionalità del dispositivo e gestisce gli aggiornamenti del modello. Ciò significa che non sei responsabile del download o dell'aggiornamento di modelli di grandi dimensioni su una rete. Non devi risolvere i problemi di espulsione dello spazio di archiviazione, del budget di memoria di runtime, dei costi di pubblicazione e di altri problemi.
- Accesso all'accelerazione hardware: il runtime dell'IA del browser è ottimizzato per sfruttare al meglio l'hardware disponibile, che si tratti di una GPU, di una NPU o di una CPU di riserva. Di conseguenza, la tua app può ottenere il rendimento migliore su ogni dispositivo.
Vantaggi dell'esecuzione lato client
Con un approccio all'IA integrato, diventa facile eseguire attività di IA lato client, che a sua volta offre i seguenti vantaggi:
- Elaborazione locale di dati sensibili: l'IA lato client può migliorare la tua strategia di privacy. Ad esempio, se lavori con dati sensibili, puoi offrire funzionalità di IA agli utenti con crittografia end-to-end.
- Esperienza utente rapida: in alcuni casi, eliminare il viaggio di andata e ritorno al server significa che puoi offrire risultati quasi istantanei. L'IA lato client può fare la differenza tra una funzionalità valida e un'esperienza utente non ottimale.
- Maggiore accesso all'AI: i dispositivi degli utenti possono sopportare parte del carico di elaborazione in cambio di un maggiore accesso alle funzionalità. Ad esempio, se offri funzionalità di IA premium, puoi visualizzarne l'anteprima con l'IA lato client in modo che i potenziali clienti possano vedere i vantaggi del tuo prodotto senza costi aggiuntivi. Questo approccio ibrido può anche aiutarti a gestire i costi di inferenza, in particolare per i flussi utente di uso frequente.
- Utilizzo dell'AI offline: gli utenti possono accedere alle funzionalità di IA anche in assenza di connessione a internet. Ciò significa che i tuoi siti e le tue app web possono funzionare come previsto offline o con connettività variabile.
AI ibrida: lato client e lato server
Sebbene l'AI lato client possa gestire una vasta gamma di casi d'uso, esistono alcuni casi che richiedono il supporto lato server.
L'IA lato server è un'ottima opzione per i modelli di grandi dimensioni e può supportare un'ampia gamma di piattaforme e dispositivi.
Potresti prendere in considerazione un approccio ibrido, a seconda di:
- Complessità: i casi d'uso specifici e accessibili sono più facili da supportare con l'IA on-device. Per casi d'uso complessi, valuta l'implementazione lato server.
- Resilienza: utilizza la modalità lato server per impostazione predefinita e la modalità sul dispositivo quando il dispositivo è offline o la connessione è instabile.
- Ritiro graduale: l'adozione di browser con l'AI integrata richiederà tempo, alcuni modelli potrebbero non essere disponibili e i dispositivi meno recenti o meno potenti potrebbero non soddisfare i requisiti hardware per l'esecuzione ottimale di tutti i modelli. Offrire l'AI lato server per questi utenti.
Per i modelli Gemini, puoi utilizzare l'integrazione di backend (con Python, Go, Node.js o REST) o implementare nella tua applicazione web con il nuovo SDK client Google AI per il web.
Architettura e API del browser
Per supportare l'IA integrata in Chrome, abbiamo creato un'infrastruttura per accedere ai modelli di base e di esperti per l'esecuzione sul dispositivo. Questa infrastruttura è già alla base di funzionalità innovative del browser, come Aiutami a scrivere.
Puoi accedere alle funzionalità di IA integrate principalmente con le API di task, come l'API Traduttore o l'API Riepilogatore. Le API Task sono progettate per eseguire l'inferenza sul modello migliore per l'assegnazione.
In Chrome, queste API sono progettate per eseguire l'inferenza su Gemini Nano con ottimizzazione fine o un modello esperto. Progettato per funzionare localmente sulla maggior parte dei dispositivi moderni, Gemini Nano è ideale per casi d'uso relativi al linguaggio, come sintesi, riformulazione o classificazione.
Forniamo anche API esplorative, come l'API Prompt, per consentirti di eseguire esperimenti localmente e condividere casi d'uso aggiuntivi.
In futuro, potremmo offrire un'API esplorativa per LoRA per migliorare le prestazioni del modello integrato modificando i relativi pesi.
Quando utilizzare l'IA integrata
Ecco alcuni modi in cui l'IA integrata può essere utile a te e ai tuoi utenti:
- Utilizzo dei contenuti migliorato con l'IA: tra cui sintesi, traduzione, categorizzazione, caratterizzazione e come fornitore di conoscenza.
- Creazione di contenuti supportata dall'IA: ad esempio assistenza alla scrittura, correzione bozza, correzione grammaticale e riformulazione.
Passaggi successivi
È possibile testare diverse API di IA integrate nelle prove dell'origine. Le API esplorative e altre API in fase iniziale sono disponibili per i partecipanti al programma di anteprima.
Scopri come utilizzare Gemini Pro sui server di Google con i tuoi siti web e le tue app web nel nostro pannello di avvio rapido per l'SDK JavaScript di Google AI.