Er is het afgelopen jaar veel veranderd op het gebied van Web AI. Mocht je het gemist hebben: we hebben op I/O 2024 een lezing gehouden over de nieuwe modellen, tools en API’s voor je volgende webapp.
Web AI is een reeks technologieën en technieken om machine learning (ML)-modellen te gebruiken, client-side in een webbrowser die draait op de CPU of GPU van een apparaat. Dit kan worden gebouwd met JavaScript en andere webtechnologieën, zoals WebAssembly en WebGPU . Dit is anders dan AI op de server of ‘Cloud AI’, waarbij het model op een server wordt uitgevoerd en toegankelijk is via een API.
In dit gesprek deelden we:
- Hoe we onze nieuwe grote taalmodellen (LLM's) in de browser kunnen uitvoeren en de impact van het uitvoeren van modellen op de client;
- Een kijkje in de toekomst van Visual Blocks , om sneller prototypes te maken;
- En hoe webontwikkelaars JavaScript in Chrome kunnen gebruiken om op grote schaal met Web AI te werken.
LLM's in de browser
Gemma Web is een nieuw open model van Google dat in de browser op het apparaat van een gebruiker kan worden uitgevoerd, gebouwd op basis van hetzelfde onderzoek en dezelfde technologie die we hebben gebruikt om Gemini te creëren.
Door een LLM op het apparaat te plaatsen, is er een aanzienlijk potentieel voor kostenbesparingen in vergelijking met het draaien op een cloudserver voor gevolgtrekking, samen met verbeterde gebruikersprivacy en verminderde latentie. Generatieve AI in de browser bevindt zich nog in de beginfase, maar naarmate de hardware blijft verbeteren (met een hoger CPU- en GPU-RAM), verwachten we dat er meer modellen beschikbaar zullen komen.
Bedrijven kunnen zich opnieuw voorstellen wat u op een webpagina kunt doen, vooral voor taakspecifieke gebruiksscenario's, waarbij de gewichten van kleinere LLM's (2 tot 8 miljard parameters) kunnen worden afgestemd om op consumentenhardware te draaien.
Gemma 2B kan worden gedownload op Kaggle Models en wordt geleverd in een indeling die compatibel is met onze Web LLM-inferentie-API . Andere ondersteunde architecturen zijn Microsoft Phi-2 , Falcon RW 1B en Stable LM 3B , die u kunt converteren naar een indeling die door de runtime kan worden gebruikt met behulp van onze converterbibliotheek .
Bouw snellere prototypes met visuele blokken
We werken samen met Hugging Face, die 16 gloednieuwe aangepaste knooppunten voor Visual Blocks heeft gemaakt. Dit brengt Transformers.js en het bredere Hugging Face-ecosysteem naar Visual Blocks.
Acht van deze nieuwe knooppunten draaien volledig aan de clientzijde, met Web AI, waaronder:
- Segmentatie van afbeeldingen
- Vertaling
- Token-classificatie
- Objectdetectie
- Tekstclassificatie
- Achtergrond verwijderen
- Diepte schatting
Daarnaast zijn er zeven server-side ML-taken van Hugging Face waarmee u duizenden modellen met API's in Visual Blocks kunt uitvoeren. Bekijk de Hugging Face Visual Blocks-collectie .
Gebruik JavaScript voor Web AI op schaal met Chrome
In de voorgaande gevallen, zoals bij Gemma, werd het model geladen en uitgevoerd binnen de webpagina zelf. Chrome werkt aan ingebouwde AI op het apparaat , waarmee u toegang krijgt tot modellen met gestandaardiseerde, taakspecifieke JavaScript-API's.
En dat is nog niet alles. Chrome heeft ook WebGPU bijgewerkt met ondersteuning voor 16-bits drijvende-kommawaarden.
WebAssembly heeft een nieuw voorstel, Memory64 , om 64-bit geheugenindexen te ondersteunen, waardoor je grotere AI-modellen kunt laden dan voorheen.
Begin met het testen van Web AI-modellen met headless Chrome
U kunt nu AI aan de clientzijde testen (of elke applicatie die WebGL- of WebGPU-ondersteuning nodig heeft) met Headless Chrome, terwijl u gebruik maakt van GPU's aan de serverzijde voor versnelling, zoals een NVIDIA T4 of P100. Meer informatie:
Vergeet niet dat wanneer u deelt wat u maakt, u #WebAI toevoegt zodat de bredere gemeenschap uw werk kan zien. Deel uw bevindingen en suggesties op X, LinkedIn of het sociale platform van uw voorkeur.