L'IA sur le Web a beaucoup évolué au cours de l'année écoulée. Pour ceux qui ne le savent pas, nous avons présenté lors de l'I/O 2024 les nouveaux modèles, outils et API pour votre prochaine application Web.
L'IA Web est un ensemble de technologies et de techniques permettant d'utiliser des modèles de machine learning (ML) côté client dans un navigateur Web s'exécutant sur le processeur ou le GPU d'un appareil. Il peut être créé avec JavaScript et d'autres technologies Web, telles que WebAssembly et WebGPU. Cela diffère de l'IA côté serveur ou "IA cloud", où le modèle s'exécute sur un serveur et est accessible avec une API.
Voici les thèmes abordés :
- Comment exécuter nos nouveaux grands modèles de langage (LLM) dans le navigateur et l'impact de l'exécution des modèles côté client ;
- Un aperçu de l'avenir des blocs visuels pour prototyper plus rapidement ;
- Découvrez comment les développeurs Web peuvent utiliser JavaScript dans Chrome pour travailler avec l'IA Web à grande échelle.
LLM dans le navigateur
Gemma Web est un nouveau modèle ouvert de Google qui peut s'exécuter dans le navigateur sur l'appareil d'un utilisateur. Il est basé sur les mêmes recherches et technologies que celles utilisées pour créer Gemini.
En intégrant un LLM sur l'appareil, il est possible de réaliser des économies importantes par rapport à l'exécution de l'inférence sur un serveur cloud, tout en améliorant la confidentialité des utilisateurs et en réduisant la latence. L'IA générative dans le navigateur en est encore à ses débuts, mais à mesure que le matériel continue de s'améliorer (avec une RAM de processeur et de GPU plus élevée), nous nous attendons à ce que davantage de modèles deviennent disponibles.
Les entreprises peuvent réinventer ce que vous pouvez faire sur une page Web, en particulier pour les cas d'utilisation spécifiques à des tâches, où les pondérations des petits LLM (2 à 8 milliards de paramètres) peuvent être ajustées pour s'exécuter sur du matériel grand public.
Gemma 2B est disponible au téléchargement sur Kaggle Models et est compatible avec notre API d'inférence Web LLM. Les autres architectures compatibles incluent Microsoft Phi-2, Falcon RW 1B et Stable LM 3B, que vous pouvez convertir dans un format utilisable par le runtime à l'aide de notre bibliothèque de conversion.
Créer des prototypes plus rapidement avec les blocs visuels
Nous collaborons avec Hugging Face, qui a créé 16 nouveaux nœuds personnalisés pour Visual Blocks. Cela permet d'intégrer Transformers.js et l'écosystème Hugging Face plus large aux blocs visuels.
Huit de ces nouveaux nœuds s'exécutent entièrement côté client, avec l'IA Web, y compris :
- Segmentation d'images
- Translation
- Classification des jetons
- Détection d'objets
- Classification de texte
- Suppression de l'arrière-plan
- Estimation de la profondeur
De plus, sept tâches de ML côté serveur de Hugging Face vous permettent d'exécuter des milliers de modèles avec des API dans les blocs visuels. Découvrez la collection de blocs visuels Hugging Face.
Utiliser JavaScript pour l'IA Web à grande échelle avec Chrome
Dans les instances précédentes, comme avec Gemma, le modèle est chargé et exécuté dans la page Web elle-même. Chrome travaille sur une IA intégrée sur l'appareil, qui vous permettra d'accéder à des modèles avec des API JavaScript standardisées et spécifiques à des tâches.
Et ce n'est pas tout. Chrome a également mis à jour WebGPU pour prendre en charge les valeurs à virgule flottante 16 bits.
WebAssembly propose une nouvelle fonctionnalité, Memory64, pour prendre en charge les index de mémoire de 64 bits, ce qui vous permettrait de charger des modèles d'IA plus volumineux qu'auparavant.
Commencer à tester les modèles d'IA Web avec Headless Chrome
Vous pouvez désormais tester l'IA côté client (ou toute application nécessitant la prise en charge de WebGL ou WebGPU) à l'aide de Headless Chrome, tout en utilisant des GPU côté serveur pour l'accélération, tels que NVIDIA T4 ou P100. En savoir plus :
- Exécuter dans Google Colab
- En savoir plus sur les tests
- Consultez également l'exemple de code sur GitHub.
N'oubliez pas d'ajouter #WebAI lorsque vous partagez vos créations pour que la communauté puisse les voir. Partagez vos conclusions et suggestions sur X, LinkedIn ou la plate-forme de réseaux sociaux de votre choix.