Cuando compilamos funciones con modelos de IA en la Web, a menudo nos basamos en soluciones del servidor para modelos más grandes. Esto es especialmente cierto para la IA generativa, en la que incluso los modelos más pequeños son alrededor de mil veces más grandes que el tamaño medio de la página web. También es cierto para otros casos de uso de IA, en los que los modelos pueden variar de 10 s a 100 s de megabytes.
Como estos modelos no se comparten entre sitios web, cada sitio debe descargarlos cuando se carga la página. Esta es una solución poco práctica para desarrolladores y usuarios
Si bien la IA del servidor es una excelente opción para los modelos grandes, los enfoques híbridos y en dispositivos tienen sus propias ventajas atractivas. Para que estos enfoques sean viables, necesitamos abordar el tamaño y la entrega del modelo.
Por eso, estamos desarrollando APIs de plataforma web y funciones del navegador diseñadas para integrar modelos de IA, incluidos los modelos grandes de lenguaje (LLM), directamente en el navegador. Esto incluye Gemini Nano, la versión más eficiente de la familia de LLM de Gemini, diseñada para ejecutarse localmente en la mayoría de las computadoras de escritorio y laptops modernas. Con la IA integrada, tu sitio web o aplicación web pueden realizar tareas potenciadas por IA sin necesidad de implementar o administrar sus propios modelos de IA.
Descubre los beneficios de la IA integrada, nuestro plan de implementación y cómo puedes aprovechar esta tecnología.
Obtén una vista previa anticipada
Necesitamos tu aporte para dar forma a las APIs, garantizar que cumplan con tus casos de uso y fundamentar nuestras discusiones con otros proveedores de navegadores para la estandarización.
Únete a nuestro programa de versión preliminar anticipada para proporcionar comentarios sobre ideas de IA integradas en etapas tempranas y descubrir oportunidades para probar las APIs en curso mediante el prototipado local.
Únete al grupo de anuncios públicos de desarrolladores de IA de Chrome para recibir notificaciones cuando haya nuevas APIs disponibles.
Beneficios de la IA integrada para desarrolladores web
Con la IA integrada, tu navegador proporciona y administra modelos expertos y de base.
En comparación con la IA integrada en el dispositivo, la IA integrada ofrece los siguientes beneficios:
- Facilidad de implementación: A medida que el navegador distribuye los modelos, tiene en cuenta la capacidad del dispositivo y administra las actualizaciones del modelo. Esto significa que no eres responsable de descargar ni actualizar modelos grandes a través de una red. No tienes que resolver la expulsión de almacenamiento, el presupuesto de memoria del entorno de ejecución, los costos de entrega y otros desafíos.
- Acceso a la aceleración de hardware: El entorno de ejecución de IA del navegador está optimizado para aprovechar al máximo el hardware disponible, ya sea una GPU, una NPU o recurrir a la CPU. En consecuencia, tu app puede obtener el mejor rendimiento en cada dispositivo.
Beneficios de ejecutar la aplicación de forma integrada en el dispositivo
Con un enfoque de IA integrado, realizar tareas de IA en el dispositivo se vuelve trivial, lo que, a su vez, ofrece las siguientes ventajas:
- Procesamiento local de datos sensibles: La IA integrada en el dispositivo puede mejorar tu historia de privacidad. Por ejemplo, si trabajas con datos sensibles, puedes ofrecer funciones de IA a los usuarios con encriptación de extremo a extremo.
- Experiencia del usuario rápida: En algunos casos, si omites el recorrido de ida y vuelta al servidor, puedes ofrecer resultados casi instantáneos. La IA integrada en el dispositivo puede ser la diferencia entre una función viable y una experiencia del usuario poco óptima.
- Mayor acceso a la IA: Los dispositivos de los usuarios pueden soportar parte de la carga de procesamiento a cambio de más acceso a las funciones. Por ejemplo, si ofreces funciones de IA premium, puedes obtener una vista previa de ellas con la IA integrada en el dispositivo para que los clientes potenciales puedan ver los beneficios de tu producto sin costo adicional. Este enfoque híbrido también puede ayudarte a administrar los costos de inferencia, en especial en los flujos de usuarios de uso frecuente.
- Uso de IA sin conexión: Los usuarios pueden acceder a las funciones de IA incluso cuando no tienen conexión a Internet. Esto significa que tus sitios y apps web pueden funcionar como se espera sin conexión o con conectividad variable.
IA híbrida: En el dispositivo y en el servidor
Si bien la IA integrada en el dispositivo puede manejar una gran variedad de casos de uso, hay algunos que requieren compatibilidad del servidor.
Por ejemplo, es posible que debas usar modelos más grandes o admitir una gama más amplia de plataformas y dispositivos.
Puedes considerar usar enfoques híbridos en función de lo siguiente:
- Complejidad: Los casos de uso específicos y accesibles son más fáciles de admitir con la IA integrada en el dispositivo. Para casos de uso complejos, considera la implementación en el servidor.
- Resiliencia: Usa el servidor de forma predeterminada y hazlo en el dispositivo cuando no tenga conexión o tenga una conexión irregular.
- Resguardo elegante: La adopción de navegadores con IA integrada llevará tiempo, es posible que algunos modelos no estén disponibles y los dispositivos más antiguos o menos potentes pueden no cumplir con los requisitos de hardware para ejecutar todos los modelos de manera óptima. Ofrece IA del servidor a esos usuarios.
Para los modelos de Gemini, puedes usar la integración de backend (con Python, Go, Node.js o REST) o implementarlo en tu aplicación web con el nuevo SDK cliente de IA de Google para la Web.
Arquitectura del navegador y APIs
Con el fin de admitir la IA integrada en Chrome, creamos una infraestructura para acceder a los modelos base y expertos para la ejecución en el dispositivo. Esta infraestructura ya impulsa funciones innovadoras del navegador, como Ayúdame a escribir, y pronto potenciará las APIs para la IA integrada en el dispositivo.
Accederás a las funciones de IA integradas principalmente con las APIs de tareas, como una API de translation o una API de resumen. Las APIs de tareas están diseñadas con el objetivo de ejecutar inferencias en el mejor modelo para la asignación.
En Chrome, estas APIs están compiladas para ejecutar inferencias en Gemini Nano con ajustes o un modelo experto. Gemini Nano, que se diseñó para ejecutarse localmente en la mayoría de los dispositivos modernos, es ideal para casos de uso relacionados con el lenguaje, como resúmenes, reformulaciones o categorizaciones.
Además, pretendemos proporcionar APIs de exploración para que puedas experimentar de forma local y compartir casos de uso adicionales.
Por ejemplo, podemos proporcionar lo siguiente:
- API de instrucciones: Envía una tarea arbitraria, expresada en lenguaje natural, al modelo grande de lenguaje integrado (Gemini Nano en Chrome).
- API de ajuste (LoRA): Mejora el rendimiento del LLM integrado en una tarea ajustando los pesos del modelo con el ajuste de adaptación de rango bajo.
Cuándo usar IA integrada
Estas son algunas maneras en las que esperamos que la IA integrada pueda beneficiarte a ti y a tus usuarios:
- Consumo de contenido mejorado con IA: Incluye resúmenes, traducciones, respuestas a preguntas sobre algunos contenidos, la categorización y la caracterización.
- Creación de contenido con IA: como asistencia de escritura, revisión de texto, corrección de gramática y reformulación.
¿Qué sigue?
Únete a nuestro programa de versión preliminar para experimentar con las APIs de IA integradas en su etapa inicial.
Mientras tanto, puedes aprender a usar Gemini Pro en los servidores de Google con tus sitios web y apps web en nuestra guía de inicio rápido sobre el SDK de JavaScript de la IA de Google.