Resumen de IA web de I/O 2024: Nuevos modelos, herramientas y APIs para tu próxima app web

Durante el último año, hubo muchos cambios en la IA web. Por si te lo perdiste, en I/O 2024 dimos una charla sobre los nuevos modelos, herramientas y APIs para tu próxima app web.

La IA web es un conjunto de tecnologías y técnicas para usar modelos de aprendizaje automático (AA), del lado del cliente en un navegador web que se ejecuta en la CPU o GPU de un dispositivo. Se puede compilar con JavaScript y otras tecnologías web, como WebAssembly y WebGPU. No es lo mismo que la IA del servidor, o “IA de Cloud”, en la que el modelo se ejecuta en un servidor y se accede a él con una API.

En esta charla, compartimos:

  • Cómo ejecutar nuestros nuevos modelos grandes de lenguaje (LLM) en el navegador y el impacto de ejecutar modelos del lado del cliente
  • Una mirada al futuro de los bloques visuales, para crear prototipos más rápido
  • y cómo los desarrolladores pueden usar JavaScript en Chrome para trabajar con IA web a gran escala.

Los LLM en el navegador

Gemma Web es un nuevo modelo abierto de Google que se puede ejecutar en el navegador del dispositivo de un usuario, desarrollado a partir de la misma investigación y tecnología que utilizamos para crear Gemini.

Cuando se integra un LLM en un dispositivo, existe un potencial significativo de ahorro de costos en comparación con la ejecución en un servidor en la nube para la inferencia, además de una mayor privacidad del usuario y una menor latencia. La IA generativa en los navegadores aún se encuentra en sus etapas iniciales, pero, a medida que el hardware mejore (con más CPU y RAM de GPU), esperamos que haya más modelos disponibles.

Las empresas pueden reinventar lo que puedes hacer en una página web, en especial para casos de uso específicos de tareas, en los que el peso de los LLM más pequeños (de 2 a 8,000 millones de parámetros) se pueden ajustar para ejecutarse en hardware de consumo.

Gemma 2B está disponible para descargar en modelos Kaggle y viene en un formato que es compatible con nuestra API de inferencia de Web LLM. Otras arquitecturas compatibles incluyen Microsoft Phi-2, Falcon RW 1B y Estable LM 3B, que puedes convertir a un formato que el entorno de ejecución pueda usar con nuestra biblioteca de conversores.

Crea prototipos más rápidos con Visual Blocks

Con Visual Blocks, puedes ejecutar una estimación de profundidad en el cliente, sin código.

Estamos colaborando con Hugging Face, que creó 16 nuevos nodos personalizados para los bloques visuales. Esto lleva a Transformers.js y el ecosistema Hugging Face más amplio a Visual Blocks.

Ocho de estos nodos nuevos se ejecutan en su totalidad del lado del cliente, con IA web, que incluye lo siguiente:

Además, hay siete tareas de AA del servidor de Hugging Face que te permiten ejecutar miles de modelos con APIs en Visual Blocks. Consulta la colección de bloques visuales Hugging Face.

Usa JavaScript para la IA web a gran escala con Chrome

En las instancias anteriores, como con Gemma, el modelo se carga y se ejecuta dentro de la propia página web. Chrome está trabajando en la IA integrada y integrada en el dispositivo, con la que puedes acceder a modelos con APIs de JavaScript estandarizadas y específicas para cada tarea.

Y eso no es todo. Chrome también actualizó WebGPU para admitir valores de punto flotante de 16 bits.

WebAssembly tiene una nueva propuesta, Memory64, para admitir índices de memoria de 64 bits, lo que te permitiría cargar modelos de IA más grandes que antes.

Comienza a probar modelos de IA web con Chrome sin interfaz gráfica

Ahora puedes probar la IA del cliente (o cualquier aplicación que necesite compatibilidad con WebGL o WebGPU) con Chrome sin interfaz gráfica y, al mismo tiempo, usar GPU del servidor para la aceleración, como NVIDIA T4 o P100. Más información:

Recuerda que, cuando compartas lo que crees, agrega #WebAI para que la comunidad en general pueda ver tu trabajo. Comparte tus hallazgos y sugerencias en X, LinkedIn o la plataforma social que prefieras.