Resumen de IA web de I/O 2024: Nuevos modelos, herramientas y APIs para tu próxima app web

Mucho ha cambiado en la IA web en el último año. En caso de que te lo hayas perdido, dimos una charla en I/O 2024 sobre los nuevos modelos, herramientas y APIs para tu próxima app web.

La IA web es un conjunto de tecnologías y técnicas para usar modelos de aprendizaje automático (AA) del cliente en un navegador web que se ejecuta en la CPU o GPU de un dispositivo. Esto se puede compilar con JavaScript y otras tecnologías web, como WebAssembly y WebGPU. Esto es diferente de la IA del servidor o la "IA en la nube", en la que el modelo se ejecuta en un servidor y se accede a él con una API.

En esta charla, compartimos lo siguiente:

  • Cómo ejecutar nuestros nuevos modelos de lenguaje grandes (LLM) en el navegador y el impacto de ejecutar modelos del cliente
  • Una mirada al futuro de los bloques visuales para crear prototipos más rápido
  • Y cómo los desarrolladores web pueden usar JavaScript en Chrome para trabajar con la IA web a gran escala.

LLM en el navegador

Gemma Web es un nuevo modelo abierto de Google que se puede ejecutar en el navegador del dispositivo de un usuario y que se compiló a partir de la misma investigación y tecnología que usamos para crear Gemini.

Cuando se implementa un LLM en el dispositivo, existe un potencial significativo de ahorro de costos en comparación con la ejecución en un servidor en la nube para la inferencia, además de una mayor privacidad del usuario y una latencia reducida. La IA generativa en el navegador aún está en sus primeras etapas, pero a medida que el hardware siga mejorando (con más RAM de CPU y GPU), esperamos que haya más modelos disponibles.

Las empresas pueden repensar lo que puedes hacer en una página web, especialmente para casos de uso específicos de tareas, en los que las ponderaciones de LLM más pequeñas (de 2,000 a 8,000 millones de parámetros) se pueden ajustar para ejecutarse en hardware para consumidores.

Gemma 2B está disponible para descargar en Kaggle Models y viene en un formato compatible con nuestra API de inferencia de LLM web. Otras arquitecturas compatibles son Microsoft Phi-2, Falcon RW 1B y Stable LM 3B, que puedes convertir a un formato que el entorno de ejecución pueda usar con nuestra biblioteca de convertidores.

Crea prototipos más rápido con Visual Blocks

Con Visual Blocks, puedes ejecutar la estimación de profundidad en el cliente sin código.

Estamos colaborando con Hugging Face, que creó 16 nodos personalizados nuevos para los bloques visuales. Esto lleva Transformers.js y el ecosistema más amplio de Hugging Face a Visual Blocks.

Ocho de estos nodos nuevos se ejecutan completamente del lado del cliente, con la IA web, incluidos los siguientes:

Además, hay siete tareas de AA del servidor de Hugging Face que te permiten ejecutar miles de modelos con APIs en Visual Blocks. Consulta la colección de bloques visuales de Hugging Face.

Usa JavaScript para la IA web a gran escala con Chrome

En los casos anteriores, como con Gemma, el modelo se carga y se ejecuta dentro de la página web. Chrome está trabajando en una IA integrada en el dispositivo, en la que puedes acceder a modelos con APIs de JavaScript estandarizadas y específicas para cada tarea.

Y eso no es todo. Chrome también actualizó WebGPU con compatibilidad con valores de punto flotante de 16 bits.

WebAssembly tiene una nueva propuesta, Memory64, para admitir índices de memoria de 64 bits, lo que te permitiría cargar modelos de IA más grandes que antes.

Comienza a probar modelos de IA web con Chrome sin interfaz gráfica

Ahora puedes probar la IA del cliente (o cualquier aplicación que necesite compatibilidad con WebGL o WebGPU) con Chrome sin cabeza, mientras usas GPUs del servidor para la aceleración, como una NVIDIA T4 o P100. Obtén más información:

Recuerda que, cuando compartas lo que crees, agrega #WebAI para que la comunidad más amplia pueda ver tu trabajo. Comparte tus conclusiones y sugerencias en X, LinkedIn o la plataforma social que prefieras.