Résumé de la conférence I/O de 2024 sur l'IA sur le Web: nouveaux modèles, outils et API pour votre prochaine application Web

L'IA Web a beaucoup évolué au cours de l'année écoulée. Au cas où vous l'auriez manqué, nous avons donné une conférence lors de la conférence I/O 2024 sur les nouveaux modèles, outils et API pour votre prochaine application Web.

L'IA Web est un ensemble de technologies et de techniques permettant d'utiliser des modèles de machine learning (ML) côté client dans un navigateur Web exécuté sur le processeur ou le GPU d'un appareil. Cela peut être créé avec JavaScript et d'autres technologies Web, telles que WebAssembly et WebGPU. Contrairement à l'IA côté serveur ou "IA cloud", où le modèle s'exécute sur un serveur et est accessible via une API.

Voici ce que nous avons partagé:

  • Comment exécuter nos nouveaux grands modèles de langage (LLM) dans le navigateur et l'impact de l'exécution de modèles côté client ;
  • Un aperçu de l'avenir des Visual Blocks pour créer des prototypes plus rapidement
  • Découvrez également comment les développeurs Web peuvent utiliser JavaScript dans Chrome pour travailler avec l'IA Web à grande échelle.

LLM dans le navigateur

Gemma Web est un nouveau modèle ouvert de Google qui peut s'exécuter dans le navigateur sur l'appareil d'un utilisateur. Il est basé sur les mêmes recherches et technologies que celles utilisées pour créer Gemini.

En implémentant un LLM sur l'appareil, vous pouvez réaliser des économies importantes par rapport à l'exécution sur un serveur cloud pour l'inférence, tout en améliorant la confidentialité des utilisateurs et en réduisant la latence. L'IA générative dans le navigateur en est encore à ses débuts, mais à mesure que le matériel continue de s'améliorer (avec une RAM de processeur et de GPU plus élevée), nous nous attendons à ce que davantage de modèles soient disponibles.

Les entreprises peuvent réinventer ce qu'elles peuvent faire sur une page Web, en particulier pour les cas d'utilisation spécifiques à une tâche, où les poids des LLM plus petits (2 à 8 milliards de paramètres) peuvent être ajustés pour s'exécuter sur du matériel grand public.

Gemma 2B est disponible en téléchargement sur Kaggle Models et est proposé dans un format compatible avec notre API d'inférence LLM Web. D'autres architectures sont également compatibles, comme Microsoft Phi-2, Falcon RW 1B et Stable LM 3B, que vous pouvez convertir dans un format utilisable par l'environnement d'exécution à l'aide de notre bibliothèque de convertisseurs.

Créer des prototypes plus rapidement avec Visual Blocks

Avec Visual Blocks, vous pouvez exécuter l'estimation de la profondeur dans le client, sans code.

Nous collaborons avec Hugging Face, qui a créé 16 nouveaux nœuds personnalisés pour les blocs visuels. Transformers.js et l'écosystème Hugging Face plus large sont désormais disponibles dans Visual Blocks.

Huit de ces nouveaux nœuds s'exécutent entièrement côté client, avec l'IA Web, y compris:

De plus, Hugging Face propose sept tâches de ML côté serveur qui vous permettent d'exécuter des milliers de modèles avec des API dans Visual Blocks. Consultez la collection de blocs visuels Hugging Face.

Utiliser JavaScript pour l'IA Web à grande échelle avec Chrome

Dans les instances précédentes, comme avec Gemma, le modèle est chargé et exécuté dans la page Web elle-même. Chrome travaille sur une IA intégrée sur l'appareil, qui vous permet d'accéder à des modèles avec des API JavaScript standardisées et spécifiques aux tâches.

Et ce n'est pas tout. Chrome a également mis à jour WebGPU pour prendre en charge les valeurs à virgule flottante 16 bits.

WebAssembly propose une nouvelle proposition, Memory64, pour prendre en charge les index de mémoire 64 bits, ce qui vous permettrait de charger des modèles d'IA plus volumineux qu'auparavant.

Commencer à tester des modèles d'IA Web avec Headless Chrome

Vous pouvez désormais tester l'IA côté client (ou toute application nécessitant la prise en charge de WebGL ou WebGPU) à l'aide de Chrome headless, tout en utilisant des GPU côté serveur pour l'accélération, tels qu'un NVIDIA T4 ou P100. En savoir plus:

N'oubliez pas que lorsque vous partagez ce que vous créez, ajoutez le hashtag #WebAI pour que la communauté puisse voir votre travail. Partagez vos résultats et vos suggestions sur X, LinkedIn ou la plate-forme de réseau social de votre choix.