IA integrata

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Pubblicata: 14 maggio 2024

Quando creiamo funzionalità con modelli di IA sul web, spesso ci affidiamo a modelli soluzioni per i modelli più grandi. Questo è particolarmente vero per l'IA generativa, dove anche i modelli più piccoli sono circa mille volte più grandi dimensioni medie della pagina web. Lo stesso vale per altri casi d'uso dell'IA, in cui i modelli possono variare da decine a centinaia di megabyte.

Poiché questi modelli non sono condivisi tra i siti web, ogni sito deve scaricarli al caricamento della pagina. Questa è una soluzione poco pratica per sviluppatori e utenti

Sebbene l'IA lato server sia un'ottima opzione per i modelli di grandi dimensioni, gli approcci on-device e ibridi hanno i loro vantaggi. Per rendere questi approcci possibili, dobbiamo affrontare le dimensioni e la pubblicazione dei modelli.

Ecco perché stiamo sviluppando API delle piattaforme web e funzionalità del browser progettate per integrare i modelli di IA, inclusi i modelli linguistici di grandi dimensioni (LLM), direttamente del browser. Sono inclusi Gemini Nano, la versione più efficiente della famiglia di LLM Gemini, progettata per essere eseguita localmente sulla maggior parte dei moderni computer desktop e laptop. Con l'IA integrata, il tuo sito web o un'applicazione web può eseguire attività basate sull'IA senza dover implementare o gestire i propri modelli di AI.

Scopri i vantaggi dell'IA integrata, il nostro piano di implementazione e come puoi beneficiare di questa tecnologia.

Visualizza un'anteprima

Abbiamo bisogno del tuo contributo per modellare le API, garantire che soddisfino i tuoi casi d'uso e supportare le nostre discussioni con altri browser per la standardizzazione.

Partecipa al nostro programma di anteprima per offrire feedback sulle idee integrate nell'ambito dell'IA in fase iniziale e scoprire opportunità per testare le API in fase di sviluppo mediante la prototipazione locale.

Unisciti al gruppo di annunci pubblici per gli sviluppatori di IA di Chrome per ricevere una notifica quando diventano disponibili nuove API.

Vantaggi dell'IA integrata per gli sviluppatori web

Con l'IA integrata, il browser fornisce e gestisce di base ed esperti.

Rispetto all'IA on-device fai-da-te, l'IA integrata offre i seguenti vantaggi:

  • Facilità di deployment: quando il browser distribuisce i modelli, prende in account la capacità del dispositivo e gestisce gli aggiornamenti del modello. Questo significa che non sei responsabile del download o dell'aggiornamento di modelli di grandi dimensioni su un in ogni rete. Non devi risolvere problemi di eliminazione dello spazio di archiviazione, budget di memoria di runtime dei costi di distribuzione e altre sfide.
  • Accesso all'accelerazione hardware: il runtime dell'IA del browser è ottimizzato per sfruttare al meglio l'hardware disponibile, che si tratti di una GPU, di una NPU o di un fallback alla CPU. Di conseguenza, la tua app può ottenere il rendimento migliore su ogni dispositivo.

Vantaggi dell'esecuzione sul dispositivo

Con un approccio all'IA integrato, è semplice eseguire attività relative all'IA sul dispositivo, il che a sua volta offre i seguenti aspetti positivi:

  • Elaborazione locale dei dati sensibili: l'IA on-device può migliorare la storia della privacy. Ad esempio, se lavori con dati sensibili, puoi offrire funzionalità di IA agli utenti con crittografia end-to-end.
  • Esperienza utente rapida: in alcuni casi, eliminare il viaggio di andata e ritorno al server significa che puoi offrire risultati quasi istantanei. L'IA on-device può fare la differenza tra una funzionalità valida e un'esperienza utente non ottimale.
  • Maggiore accesso all'IA: i tuoi utenti possono supportare alcuni dei di elaborazione in cambio di un maggiore accesso alle funzionalità. Ad esempio, se offrire funzionalità di IA premium, puoi visualizzare in anteprima queste funzionalità con l'IA on-device per mostrare ai potenziali clienti i vantaggi del prodotto, senza costi aggiuntivi per te. Questo approccio ibrido può anche aiutarti a gestire i costi di inferenza, soprattutto sui flussi utente utilizzati di frequente.
  • Utilizzo dell'IA offline: i tuoi utenti possono accedere alle funzionalità di IA anche quando non sono a internet. Ciò significa che i tuoi siti e le tue app web possono funzionare come previsto offline o con connettività variabile.

AI ibrida: on-device e lato server

Sebbene l'IA on-device possa gestire una vasta gamma di casi d'uso, esistono alcuni casi d'uso che richiedono il supporto lato server.

Ad esempio, potrebbe essere necessario utilizzare modelli più grandi o supportare una gamma più ampia piattaforme e dispositivi.

Potresti prendere in considerazione approcci ibridi, a seconda di:

  • Complessità: i casi d'uso specifici e accessibili sono più facili da supportare con l'IA on-device. Per casi d'uso complessi, valuta l'implementazione lato server.
  • Resilienza: utilizza la modalità lato server per impostazione predefinita e la modalità sul dispositivo quando il dispositivo è offline o la connessione è instabile.
  • Ritiro graduale: l'adozione di browser con l'AI integrata richiederà tempo, alcuni modelli potrebbero non essere disponibili e i dispositivi meno recenti o meno potenti potrebbero non soddisfare i requisiti hardware per l'esecuzione ottimale di tutti i modelli. Offerta l'AI lato server.

Per i modelli Gemini, puoi utilizzare l'integrazione backend (con Python, Vai, Node.js oppure REST) o implementarla nel la tua applicazione web con il nuovo SDK client IA di Google per il web.

Architettura e API del browser

Per supportare l'IA integrata in Chrome, abbiamo creato un'infrastruttura per accedere ai modelli di base e di esperti per l'esecuzione sul dispositivo. Questa infrastruttura è già alla base di funzionalità innovative del browser, come Aiutami a scrivere e che presto alimenteranno le API per l'IA on-device.

Accederai alle funzionalità di IA integrate principalmente con le API delle attività, come un API di traduzione o un riassunto tramite Google Cloud CLI o tramite l'API Compute Engine. Le API per le attività sono progettate per eseguire l'inferenza rispetto al modello migliore per compito.

In Chrome, queste API sono create per eseguire l'inferenza su Gemini Nano con perfezionamenti o a un modello esperto. Progettato per funzionare localmente sulla maggior parte dei dispositivi moderni, Gemini Nano è ideale per casi d'uso relativi al linguaggio, come sintesi, riformulazione o classificazione.

Inoltre, intendiamo fornire API esplorative, in modo da poter eseguire esperimenti localmente e condividere ulteriori casi d'uso.

Ad esempio, potremmo fornire:

  • API Prompt: invia un'attività arbitraria, espressa in linguaggio naturale, al modello linguistico di grandi dimensioni integrato (Gemini Nano in Chrome).
  • API LoRA (Fine Tune): migliora le prestazioni degli LLM integrati per un'attività regolando i pesi del modello Adattamento low-Rank dell'ottimizzazione.
Questo diagramma mostra in che modo il tuo sito web o la tua app possono utilizzare le API delle attività e delle piattaforme web esplorative per accedere ai modelli integrati in Chrome.

Quando utilizzare l'IA integrata

Ecco alcuni modi in cui prevediamo che l'IA integrata possa essere utile a te e ai tuoi utenti:

  • Consumo di contenuti ottimizzato con l'IA: tra cui riassunti, traduzione, rispondendo a domande su alcuni contenuti, sulla categorizzazione e sulla caratterizzazione.
  • Creazione di contenuti supportata dall'IA: ad esempio assistenza alla scrittura, correzione di bozze, correzione grammaticale e riformulazione.

Passaggi successivi

Partecipa al nostro programma di anteprima per sperimentare le API di IA integrate in fase iniziale.

Nel frattempo, puoi imparare a utilizzare Gemini Pro sui server di Google con i tuoi siti web e le tue app web nei nostri guida rapida per l'SDK JavaScript per l'IA di Google.