La accesibilidad de video gana el premio web de la Competencia de Desarrolladores de la API de Gemini

Alexandra Klepper
Alexandra Klepper

Fecha de publicación: 21 de noviembre de 2024

Después de recibir numerosos envíos increíbles a la Competencia para Desarrolladores de la API de Gemini, elegimos a la ganadora de la mejor aplicación web: ViddyScribe.

ViddyScribe ejemplifica cómo Gemini puede ayudar a que los videos sean más accesibles en YouTube y, potencialmente, más allá, ya que genera audiodescripciones de cualquier video que se adapten a las personas con discapacidad visual.

Funciones y capacidades de Gemini

ViddyScribe creó una aplicación diseñada en función de las necesidades del usuario. Si bien ya existen varias soluciones para generar transcripciones y descripciones de audio, ViddyScribe priorizó la creación de un resultado que priorice los resultados rápidos y una experiencia del usuario agradable para un público específico: personas con discapacidades visuales.

La anotación manual de videos para ofrecer detalles adicionales a este público lleva demasiado tiempo y, a menudo, se descuida. ViddyScribe usó Gemini para ayudar a crear una solución personalizada que se escala más allá de agregar algunas descripciones de fotogramas arbitrarias a un archivo de texto.

ViddyScribe tiene dos muestras y un espacio de carga.
La app de ViddyScribe permite a los usuarios usar un video de muestra o subir el suyo (de 100 MB y 2 minutos de duración) para generar descripciones de audio con Gemini.

ViddyScribe usó la ingeniería de instrucciones para obtener los mejores resultados y seleccionar el lenguaje y el estilo de las preguntas para Gemini 1.5 Pro. Esta instrucción utilizó la cadena de pensamientos para solicitar lo siguiente:

  • El propósito y el contexto del video
  • Audiodescripciones personalizadas con análisis y lineamientos específicos del video
  • Se cambiaron las marcas de tiempo y las descripciones para que tengan un formato predecible y coherente.

Por qué elegimos ViddyScribe

Elegimos ViddyScribe porque era una solución elegante para un problema real de los usuarios.

Si bien descubrió que había otras aplicaciones en el mercado que proporcionaban descripciones de audio, sintió que no se comprendían completamente las necesidades de las personas sordas y con discapacidad visual. Estos desarrolladores trabajaron con personas reales que tienen estas discapacidades para determinar exactamente lo que necesitaban en una aplicación de descripción de audio.

La experiencia de las personas con discapacidades puede variar mucho y, a veces, pueden tener necesidades opuestas. Además, las audiodescripciones también pueden hacer que estos videos sean accesibles para las personas neurodivergentes y otras que prefieren leer una transcripción en lugar de mirar un video.

Nos entusiasma ver cómo los desarrolladores siguen mejorando ViddyScribe y expandiendo el público y las funciones en el futuro.

Sigue compilando con las APIs de IA integradas

ViddyScribe fue solo una de las muchas aplicaciones increíbles que creaste con Gemini.

Estamos desarrollando IA integrada: APIs de plataformas web y funciones del navegador diseñadas para integrar modelos de IA, incluidos los modelos de lenguaje grandes (LLM), directamente en el navegador. Esto incluye Gemini Nano, la versión más eficiente de la familia de LLM de Gemini, diseñada para ejecutarse de forma local en la mayoría de las computadoras de escritorio y laptops modernas.

Descubre las APIs disponibles para comenzar a compilar sitios web, aplicaciones web y extensiones de Chrome potentes.

Comparte lo que compilas con nosotros en @ChromiumDev o con Chrome para desarrolladores en LinkedIn.