Muchas cosas cambiaron en la IA para la Web durante el último año. Si te lo perdiste, dimos una charla en I/O 2024 sobre los nuevos modelos, herramientas y APIs para tu próxima app web.
La IA web es un conjunto de tecnologías y técnicas para usar modelos de aprendizaje automático (AA) del lado del cliente en un navegador web que se ejecuta en la CPU o GPU de un dispositivo. Se puede compilar con JavaScript y otras tecnologías web, como WebAssembly y WebGPU. Esto es diferente de la IA del servidor o "IA en la nube", en la que el modelo se ejecuta en un servidor y se accede a él con una API.
En esta charla, compartimos lo siguiente:
- Cómo ejecutar nuestros nuevos modelos de lenguaje grandes (LLM) en el navegador y el impacto de ejecutar modelos del lado del cliente
- Un vistazo al futuro de los bloques visuales para crear prototipos más rápido
- Y cómo los desarrolladores web pueden usar JavaScript en Chrome para trabajar con la IA web a gran escala.
LLMs en el navegador
Gemma Web es un nuevo modelo abierto de Google que se puede ejecutar en el navegador del dispositivo del usuario y que se creó a partir de la misma investigación y tecnología que usamos para crear Gemini.
Al incorporar un LLM en el dispositivo, existe un potencial significativo de ahorro de costos en comparación con la ejecución en un servidor en la nube para la inferencia, junto con una mayor privacidad del usuario y una latencia reducida. La IA generativa en el navegador aún se encuentra en sus primeras etapas, pero, a medida que el hardware siga mejorando (con mayor RAM de CPU y GPU), esperamos que haya más modelos disponibles.
Las empresas pueden reinventar lo que se puede hacer en una página web, en especial para los casos de uso específicos de tareas, en los que los pesos de los LLM más pequeños (de 2 a 8 mil millones de parámetros) se pueden ajustar para ejecutarse en hardware de consumo.
Gemma 2B está disponible para su descarga en Kaggle Models y se presenta en un formato compatible con nuestra API de inferencia de LLM web. Otras arquitecturas compatibles incluyen Microsoft Phi-2, Falcon RW 1B y Stable LM 3B, que puedes convertir a un formato que el tiempo de ejecución pueda usar con nuestra biblioteca de convertidores.
Crea prototipos más rápido con Visual Blocks
Colaboramos con Hugging Face, que creó 16 nodos personalizados nuevos para Visual Blocks. Esto lleva Transformers.js y el ecosistema más amplio de Hugging Face a Visual Blocks.
Ocho de estos nodos nuevos se ejecutan completamente del lado del cliente con IA Web, incluidos los siguientes:
- Segmentación de imágenes
- Traducción
- Clasificación de tokens
- Object Detection
- Clasificación de texto
- Eliminación del fondo
- Estimación de profundidad
Además, hay siete tareas de AA del servidor de Hugging Face que te permiten ejecutar miles de modelos con APIs en Visual Blocks. Consulta la colección de bloques visuales de Hugging Face.
Usa JavaScript para la IA en la Web a gran escala con Chrome
En las instancias anteriores, como con Gemma, el modelo se carga y ejecuta dentro de la propia página web. Chrome está trabajando en la IA integrada en el dispositivo, con la que podrás acceder a modelos con APIs de JavaScript estandarizadas y específicas para tareas.
Y eso no es todo. Chrome también actualizó WebGPU para admitir valores de punto flotante de 16 bits.
WebAssembly tiene una nueva propuesta, Memory64, para admitir índices de memoria de 64 bits, lo que te permitiría cargar modelos de IA más grandes que antes.
Comienza a probar modelos de IA web con Chrome sin encabezado
Ahora puedes probar la IA del cliente (o cualquier aplicación que necesite compatibilidad con WebGL o WebGPU) con Chrome sin interfaz gráfica, mientras usas las GPU del servidor para la aceleración, como una NVIDIA T4 o P100. Obtén más información:
- Ejecutar en Google Colab
- Leer un análisis detallado de las pruebas
- También puedes consultar el código de ejemplo en GitHub.
Recuerda que, cuando compartas lo que crees, debes agregar el hashtag #WebAI para que la comunidad más amplia pueda ver tu trabajo. Comparte tus hallazgos y sugerencias en X, LinkedIn o la plataforma social que prefieras.