Résumé de la conférence I/O de 2024 sur l'IA sur le Web: nouveaux modèles, outils et API pour votre prochaine application Web

L'IA Web a beaucoup changé au cours de l'année écoulée. Au cas où vous auriez manqué cette conférence, lors de la conférence I/O 2024, nous avons présenté les nouveaux modèles, outils et API de votre prochaine application Web.

L'IA Web est un ensemble de technologies et de techniques permettant d'utiliser des modèles de machine learning (ML) côté client dans un navigateur Web exécuté sur le processeur ou le GPU d'un appareil. Il peut être compilé avec JavaScript et d'autres technologies Web, telles que WebAssembly et WebGPU. Cela diffère de l'IA côté serveur ou "Cloud AI", où le modèle s'exécute sur un serveur et est accessible avec une API.

Dans cette vidéo, nous avons partagé les points suivants:

  • Exécution de nos nouveaux grands modèles de langage (LLM) dans le navigateur et impact de l'exécution de modèles côté client
  • Un aperçu de l'avenir des éléments visuels pour accélérer le prototype
  • Découvrez comment les développeurs Web peuvent utiliser JavaScript dans Chrome pour travailler avec l'IA Web à grande échelle.

LLM dans le navigateur

Gemma Web est un nouveau modèle ouvert de Google qui peut s'exécuter dans le navigateur de l'appareil d'un utilisateur. Il a été conçu à partir des recherches et de la technologie que nous avons utilisées pour créer Gemini.

En intégrant un LLM sur l'appareil, vous pouvez réaliser d'importantes économies par rapport à l'exécution sur un serveur cloud à des fins d'inférence, une confidentialité renforcée des utilisateurs et une latence réduite. L'IA générative dans le navigateur n'en est qu'à ses débuts, mais comme le matériel continue de s'améliorer (avec une RAM plus élevée en termes de processeur et de GPU), nous nous attendons à ce que davantage de modèles soient disponibles.

Les entreprises peuvent réinventer ce qu'elles peuvent faire sur une page Web, en particulier pour les cas d'utilisation spécifiques à des tâches, où les pondérations de LLM plus petits (2 à 8 milliards de paramètres) peuvent être ajustées pour s'exécuter sur du matériel grand public.

Gemma 2B est disponible au téléchargement sur les modèles Kaggle. Son format est compatible avec notre API d'inférence LLM Web. Les autres architectures compatibles incluent Microsoft Phi-2, Falcon RW 1B et Stable LM 3B, que vous pouvez convertir dans un format compatible avec l'environnement d'exécution, à l'aide de notre bibliothèque de conversions.

Créez des prototypes plus rapides avec Visual Blocks

Avec Visual Blocks, vous pouvez exécuter une estimation de la profondeur dans le client, sans code.

Nous collaborons avec Hugging Face, qui a créé 16 nœuds personnalisés pour les éléments visuels. Transformers.js et l'écosystème plus large de Hugging Face sont ainsi intégrés à Visual Blocks.

Huit de ces nouveaux nœuds s'exécutent entièrement côté client avec Web AI, par exemple:

De plus, Hugging Face propose sept tâches de ML côté serveur qui vous permettent d'exécuter des milliers de modèles avec des API dans Visual Blocks. Découvrez la collection de blocs visuels pour le visage de Hugging.

Utiliser JavaScript pour l'IA Web à grande échelle avec Chrome

Dans les instances précédentes, telles que Gemma, le modèle est chargé et exécuté dans la page Web elle-même. Chrome travaille sur une IA intégrée sur l'appareil, qui vous permet d'accéder à des modèles avec des API JavaScript standardisées et spécifiques à une tâche.

Et ce n'est pas tout. Chrome a également mis à jour WebGPU afin de prendre en charge les valeurs à virgule flottante 16 bits.

WebAssembly propose une nouvelle proposition, Memory64, pour prendre en charge les index de mémoire 64 bits, ce qui vous permettrait de charger des modèles d'IA plus volumineux qu'auparavant.

Commencer à tester des modèles d'IA Web avec Headless Chrome

Vous pouvez désormais tester l'IA côté client (ou toute application nécessitant la compatibilité avec WebGL ou WebGPU) à l'aide de Chrome headless, tout en utilisant des GPU côté serveur tels que NVIDIA T4 ou P100. En savoir plus:

N'oubliez pas que lorsque vous partagez ce que vous créez, ajoutez #WebAI afin que la communauté au sens large puisse voir votre travail. Partagez vos découvertes et suggestions sur X, LinkedIn ou la plate-forme sociale de votre choix.