Quando creiamo caratteristiche con modelli di IA sul web, spesso ci affidiamo a soluzioni lato server per i modelli più grandi. Questo è particolarmente vero per l'IA generativa, dove anche i modelli più piccoli sono circa mille volte più grandi rispetto alle dimensioni mediane delle pagine web. È vero anche per altri casi d'uso dell'IA, in cui i modelli possono essere compresi tra 10 e 100 megabyte.
Poiché questi modelli non sono condivisi tra siti web, ogni sito deve scaricarli al caricamento pagina. Si tratta di una soluzione non pratica per sviluppatori e utenti
Sebbene l'IA lato server sia un'ottima opzione per i modelli di grandi dimensioni, gli approcci on-device e ibridi hanno i loro lati positivi. Affinché questi approcci siano attuabili, dobbiamo occuparci delle dimensioni e della distribuzione del modello.
Ecco perché stiamo sviluppando API delle piattaforme web e funzionalità del browser progettate per integrare i modelli di IA, inclusi i modelli linguistici di grandi dimensioni (LLM), direttamente nel browser. tra cui Gemini Nano, la versione più efficiente della famiglia di LLM Gemini, progettata per essere eseguita localmente sulla maggior parte dei moderni computer desktop e laptop. Con l'IA integrata, il tuo sito web o la tua applicazione web possono eseguire attività basate sull'IA senza dover eseguire il deployment o gestire i propri modelli di AI.
Scopri i vantaggi dell'IA integrata, il nostro piano di implementazione e come sfruttare questa tecnologia.
Visualizza un'anteprima in anteprima
Abbiamo bisogno del tuo contributo per modellare le API, assicurarci che soddisfino i tuoi casi d'uso e supportare le nostre discussioni con altri fornitori di browser per la standardizzazione.
Partecipa al nostro programma di anteprima in anteprima per fornire feedback sulle idee di IA integrate in fase iniziale e scoprire opportunità per testare le API in corso tramite la prototipazione locale.
Unisciti al gruppo di annunci pubblici per gli sviluppatori di IA di Chrome per ricevere una notifica quando saranno disponibili nuove API.
Vantaggi dell'IA integrata per gli sviluppatori web
Con l'IA integrata, il tuo browser fornisce e gestisce modelli di base ed esperti.
Rispetto all'IA sul dispositivo per il fai da te, l'IA integrata offre i seguenti vantaggi:
- Facilità di deployment: quando il browser distribuisce i modelli, prende in considerazione le funzionalità del dispositivo e gestisce gli aggiornamenti del modello. Ciò significa che non sei responsabile del download o dell'aggiornamento di modelli di grandi dimensioni tramite una rete. Non devi risolvere problemi di eliminazione dello spazio di archiviazione, budget per la memoria di runtime, costi di distribuzione e altri problemi.
- Accesso all'accelerazione hardware: il runtime AI del browser è ottimizzato per sfruttare al meglio l'hardware disponibile, che si tratti di una GPU, di una NPU o di una CPU di riserva. Di conseguenza, la tua app può ottenere le migliori prestazioni su ogni dispositivo.
Vantaggi dell'esecuzione sul dispositivo
Con un approccio all'IA integrato, diventa semplice eseguire attività di IA sul dispositivo, il che offre a sua volta i seguenti svantaggi:
- Elaborazione locale dei dati sensibili: l'IA on-device può migliorare la tua storia di privacy. Ad esempio, se lavori con dati sensibili, puoi offrire funzionalità di IA agli utenti mediante la crittografia end-to-end.
- Esperienza utente rapida: in alcuni casi, abbandonare il round trip al server significa poter offrire risultati quasi istantanei. L'IA on-device può fare la differenza tra una funzionalità utilizzabile e un'esperienza utente non ottimale.
- Maggiore accesso all'IA: i dispositivi degli utenti possono sopportare parte del carico di elaborazione in cambio di un maggiore accesso alle funzionalità. Ad esempio, se offri funzionalità di IA premium, puoi visualizzare l'anteprima di queste funzionalità con l'IA on-device, in modo che i potenziali clienti possano vedere i vantaggi del tuo prodotto senza costi aggiuntivi. Questo approccio ibrido può anche aiutarti a gestire i costi di inferenza, in particolare nei flussi di utenti utilizzati di frequente.
- Utilizzo dell'IA offline: i tuoi utenti possono accedere alle funzionalità di IA anche in assenza di connessione a internet. Ciò significa che i tuoi siti e le tue app web possono funzionare come previsto offline o con connettività variabile.
IA ibrida: on-device e lato server
Sebbene l'IA on-device possa gestire una vasta gamma di casi d'uso, alcuni casi d'uso richiedono il supporto lato server.
Ad esempio, potrebbe essere necessario utilizzare modelli più grandi o supportare una gamma più ampia di piattaforme e dispositivi.
Puoi prendere in considerazione approcci ibridi, in base a:
- Complessità: è più facile supportare casi d'uso specifici e accessibili con l'IA on-device. Per casi d'uso complessi, prendi in considerazione l'implementazione lato server.
- Resilienza: utilizza il lato server per impostazione predefinita e utilizza on-device quando il dispositivo è offline o con una connessione instabile.
- Riserva curata: l'adozione di browser con IA integrata richiede tempo, alcuni modelli potrebbero non essere disponibili e i dispositivi meno recenti o meno potenti potrebbero non soddisfare i requisiti hardware per l'esecuzione ottimale di tutti i modelli. Offri a questi utenti l'IA lato server.
Per i modelli Gemini, puoi utilizzare l'integrazione backend (con Python, Go, Node.js o REST) o implementarla nella tua applicazione web con il nuovo SDK client dell'IA di Google per il web.
Architettura del browser e API
Per supportare l'IA integrata in Chrome, abbiamo creato un'infrastruttura per accedere a modelli di base ed esperti per l'esecuzione on-device. Questa infrastruttura supporta già funzionalità innovative del browser, come Aiutami a scrivere e presto alimenterà le API per l'IA on-device.
Accederai alle funzionalità di IA integrate principalmente con le API delle attività, ad esempio un'API di traduzione o un'API di riepilogo. Le API delle attività sono progettate per eseguire l'inferenza rispetto al modello migliore per l'assegnazione.
In Chrome, queste API sono create per eseguire l'inferenza su Gemini Nano mediante ottimizzazione o un modello esperto. Progettato per essere eseguito localmente sulla maggior parte dei dispositivi moderni, Gemini Nano è ideale per i casi d'uso correlati al linguaggio, come i riassunti, la riformulazione o la categorizzazione.
Inoltre, intendiamo fornire API esplorative per consentirti di sperimentare a livello locale e condividere ulteriori casi d'uso.
Ad esempio, potremmo fornire:
- API Prompt: invia un'attività arbitraria, espressa in linguaggio naturale, al modello linguistico di grandi dimensioni integrato (Gemini Nano in Chrome).
- API di ottimizzazione (LoRA): migliora le prestazioni dell'LLM integrato su un'attività regolando le ponderazioni del modello con l'ottimizzazione precisa dell'adattamento a basso livello.
Quando utilizzare l'IA integrata
Ecco alcuni modi in cui ci aspettiamo che l'IA integrata possa aiutare te e i tuoi utenti:
- Consumo di contenuti migliorato dall'IA: tra cui riassunto, traduzione e risposta a domande su alcuni contenuti, categorizzazione e caratterizzazione.
- Creazione di contenuti supportata dall'IA: assistenza alla scrittura, correzione di bozze, correzione grammaticale e riformulazione.
Passaggi successivi
Partecipa al nostro programma di anteprima in anteprima per sperimentare le API AI integrate in fase iniziale.
Nel frattempo, puoi imparare a utilizzare Gemini Pro sui server di Google con i tuoi siti web e le tue app web nella nostra guida rapida per l'SDK JavaScript per l'IA di Google.