La accesibilidad de video gana el premio web de la Competencia de Desarrolladores de la API de Gemini

Alexandra Klepper
Alexandra Klepper

Fecha de publicación: 21 de noviembre de 2024

Después de recibir numerosas presentaciones increíbles para la Competencia de desarrolladores de la API de Gemini, seleccionamos al ganador de la mejor aplicación web: ViddyScribe.

ViddyScribe ejemplifica cómo Gemini puede ayudar a que los videos sean más accesibles en YouTube y, potencialmente, en otras plataformas, ya que genera audiodescripciones de cualquier video que se adapten a las personas con discapacidad visual.

Funciones y capacidades de Gemini

ViddyScribe creó una aplicación diseñada para priorizar al usuario. Si bien ya existen varias soluciones para generar transcripciones y descripciones de audio, ViddyScribe priorizó la creación de un resultado que priorice tanto los resultados rápidos como una experiencia del usuario agradable para un público específico: las personas con discapacidad visual.

La anotación manual de videos para ofrecer detalles adicionales a este público lleva demasiado tiempo y, a menudo, se descuida. ViddyScribe usó Gemini para ayudar a crear una solución personalizada que se extiende más allá de agregar algunas descripciones de fotogramas arbitrarias a un archivo de texto.

ViddyScribe tiene dos muestras y un espacio de carga.
La app de ViddyScribe permite que los usuarios usen un video de muestra o suban uno propio (de 100 MB y 2 minutos de duración) para generar descripciones de audio con Gemini.

ViddyScribe usó la ingeniería de instrucciones para obtener los mejores resultados, y seleccionó el lenguaje y el estilo de las preguntas para Gemini 1.5 Pro. Esta instrucción usó la cadena de pensamientos para solicitar lo siguiente:

  • Propósito y contexto del video
  • Audiodescripciones personalizadas con análisis y lineamientos específicos para cada video
  • Se reformatearon las marcas de tiempo y las descripciones para que tengan un formato predecible y coherente.

Por qué elegimos ViddyScribe

Elegimos ViddyScribe porque era una solución elegante para un problema real del usuario.

Si bien encontraron que había otras aplicaciones en el mercado que proporcionaban descripciones de audio, sintieron que no se comprendían por completo las necesidades de las personas sordas y con discapacidad visual. Estos desarrolladores trabajaron con personas reales que tienen estas discapacidades para determinar exactamente lo que necesitaban en una aplicación de descripción de audio.

La experiencia de las personas con discapacidades puede variar mucho y, a veces, pueden tener necesidades contrapuestas. Además, las audiodescripciones también pueden hacer que estos videos sean accesibles para las personas neurodivergentes y otras que prefieren leer una transcripción en lugar de mirar un video.

Nos entusiasma ver cómo los desarrolladores seguirán mejorando ViddyScribe y expandiendo el público y las capacidades en el futuro.

Sigue creando con las APIs de IA integradas

ViddyScribe fue solo una de las muchas aplicaciones increíbles que creaste con Gemini.

Estamos desarrollando IA integrada: APIs de plataformas web y funciones del navegador diseñadas para integrar modelos de IA, incluidos los modelos de lenguaje grandes (LLM), directamente en el navegador. Esto incluye Gemini Nano, la versión más eficiente de la familia de LLMs de Gemini, diseñada para ejecutarse de forma local en la mayoría de las computadoras de escritorio y laptops modernas.

Descubre las APIs disponibles para comenzar a crear sitios web, aplicaciones web y extensiones de Chrome potentes.

Comparte con nosotros lo que crees en @ChromiumDev o en Chrome for Developers en LinkedIn.