I/O 2024 Web AI-afronding: nieuwe modellen, tools en API's voor uw volgende web-app

Alexandra Klepper
Alexandra Klepper

Er is het afgelopen jaar veel veranderd in web-AI. Mocht je het gemist hebben: we gaven op I/O 2024 een presentatie over de nieuwe modellen, tools en API's voor je volgende webapp.

Web AI is een set technologieën en technieken om machine learning (ML)-modellen te gebruiken aan de clientzijde in een webbrowser die draait op de CPU of GPU van een apparaat. Dit kan worden gebouwd met JavaScript en andere webtechnologieën, zoals WebAssembly en WebGPU . Dit in tegenstelling tot server-side AI of "Cloud AI", waarbij het model op een server wordt uitgevoerd en toegankelijk is via een API.

In deze lezing deelden we:

  • Hoe u onze nieuwe grote taalmodellen (LLM's) in de browser kunt uitvoeren en welke impact het uitvoeren van modellen aan de clientzijde heeft;
  • Een blik op de toekomst van Visual Blocks , om sneller prototypes te maken;
  • En hoe webontwikkelaars JavaScript in Chrome kunnen gebruiken om op grote schaal met Web AI te werken.

LLM's in de browser

Gemma Web is een nieuw, open model van Google dat in de browser op het apparaat van een gebruiker kan worden uitgevoerd. Het is gebaseerd op hetzelfde onderzoek en dezelfde technologie die we hebben gebruikt om Gemini te creëren.

Door een LLM op het apparaat te implementeren, is er een aanzienlijk potentieel voor kostenbesparingen ten opzichte van het gebruik van een cloudserver voor inferentie, plus verbeterde gebruikersprivacy en verminderde latentie. Generatieve AI in de browser staat nog in de kinderschoenen, maar naarmate de hardware verder verbetert (met meer CPU- en GPU-RAM), verwachten we dat er meer modellen beschikbaar komen.

Bedrijven kunnen opnieuw bedenken wat u op een webpagina kunt doen, met name voor taakspecifieke use cases, waarbij de gewichten van kleinere LLM's (2 tot 8 miljard parameters) kunnen worden afgestemd op consumentenhardware.

Gemma 2B is beschikbaar om te downloaden op Kaggle Models en wordt geleverd in een formaat dat compatibel is met onze Web LLM-inferentie-API . Andere ondersteunde architecturen zijn Microsoft Phi-2 , Falcon RW 1B en Stable LM 3B , die u met behulp van onze conversiebibliotheek kunt converteren naar een formaat dat de runtime kan gebruiken.

Bouw sneller prototypes met Visual Blocks

Met Visual Blocks kunt u diepteschattingen uitvoeren in de client, zonder code.

We werken samen met Hugging Face, die 16 gloednieuwe, aangepaste nodes voor Visual Blocks heeft ontwikkeld. Dit brengt Transformers.js en het bredere Hugging Face-ecosysteem naar Visual Blocks.

Acht van deze nieuwe nodes draaien volledig client-side, met Web AI, waaronder:

Daarnaast zijn er zeven server-side ML-taken van Hugging Face waarmee je duizenden modellen met API's in Visual Blocks kunt uitvoeren. Bekijk de Hugging Face Visual Blocks-collectie .

Gebruik JavaScript voor web-AI op schaal met Chrome

In de voorgaande gevallen, zoals met Gemma, wordt het model geladen en uitgevoerd binnen de webpagina zelf. Chrome werkt aan ingebouwde AI op het apparaat , waarmee u toegang krijgt tot modellen met gestandaardiseerde, taakspecifieke JavaScript API's.

En dat is nog niet alles. Chrome heeft ook WebGPU geüpdatet met ondersteuning voor 16-bits floating point-waarden.

WebAssembly heeft een nieuw voorstel, Memory64 , om 64-bits geheugenindexen te ondersteunen, waardoor u grotere AI-modellen dan voorheen kunt laden.

Begin met het testen van web-AI-modellen met headless Chrome

U kunt nu client-side AI (of elke toepassing die WebGL- of WebGPU-ondersteuning nodig heeft) testen met Headless Chrome, terwijl u voor versnelling gebruikmaakt van server-side GPU's, zoals een NVIDIA T4 of P100. Meer informatie:

Vergeet niet om #WebAI toe te voegen wanneer je je creaties deelt, zodat de bredere community je werk kan zien. Deel je bevindingen en suggesties op X, LinkedIn of het sociale platform van je voorkeur.