A acessibilidade de vídeo vence o prêmio da Competição de desenvolvedores da API Gemini na Web

Alexandra Klepper
Alexandra Klepper

Publicado em 21 de novembro de 2024

Depois de vários envios incríveis para a competição para desenvolvedores da API Gemini, selecionamos o vencedor do prêmio de melhor aplicativo da Web: ViddyScribe.

O ViddyScribe é um exemplo de como o Gemini pode ajudar a tornar os vídeos mais acessíveis no YouTube e em outros lugares, gerando descrições em áudio de qualquer vídeo personalizadas para pessoas com deficiência visual.

Recursos e recursos do Gemini

A ViddyScribe criou um aplicativo com foco no usuário. Embora já existam várias soluções para gerar transcrições e descrições de áudio, o ViddyScribe priorizou a criação de um resultado que prioriza resultados rápidos e uma experiência agradável do usuário para um público específico: pessoas com deficiência visual.

A anotação manual de vídeos para oferecer detalhes adicionais a esse público leva muito tempo e, muitas vezes, é negligenciada. A ViddyScribe usou o Gemini para criar uma solução personalizada que vai além da adição de algumas descrições de frames arbitrárias a um arquivo de texto.

O ViddyScribe tem duas amostras e um espaço de upload.
O app ViddyScribe permite que os usuários usem um vídeo de exemplo ou façam o upload do próprio vídeo (100 MB e 2 minutos de duração) para gerar descrições de áudio com o Gemini.

O ViddyScribe usou a engenharia de comando para conseguir os melhores resultados, selecionando a linguagem e o estilo das perguntas para o Gemini 1.5 Pro. Essa instrução usou comandos de fluxo de consciência para solicitar:

  • Objetivo e contexto do vídeo.
  • Audiodescrições personalizadas usando análises e diretrizes específicas do vídeo.
  • Formatação de carimbos de data/hora e descrições para um formato previsível e consistente.

Por que escolhemos o ViddyScribe

Escolhemos o ViddyScribe porque ele era uma solução elegante para um problema real do usuário.

Embora eles tenham descoberto que havia outros aplicativos no mercado que ofereciam descrições em áudio, eles sentiram que as necessidades de pessoas com deficiência visual e surdez não eram totalmente compreendidas. Esses desenvolvedores trabalharam com pessoas reais que têm essas deficiências para determinar exatamente o que elas precisavam em um aplicativo de descrição de áudio.

A experiência de pessoas com deficiência pode variar muito, e às vezes elas podem ter necessidades conflitantes. Além disso, as audiodescrições também podem tornar esses vídeos acessíveis para pessoas com neurodiversidade e outras que preferem ler uma transcrição em vez de assistir um vídeo.

Estamos animados para ver como os desenvolvedores vão continuar aprimorando o ViddyScribe, expandindo o público e os recursos no futuro.

Continue criando com APIs de IA integradas

O ViddyScribe foi apenas um dos muitos apps incríveis que você criou com o Gemini.

Estamos desenvolvendo a IA integrada: APIs da plataforma da Web e recursos do navegador projetados para integrar modelos de IA, incluindo modelos de linguagem grandes (LLMs), diretamente no navegador. Isso inclui o Gemini Nano, a versão mais eficiente da família de LLMs Gemini, projetada para ser executada localmente na maioria dos computadores desktop e laptops modernos.

Descubra as APIs disponíveis para começar a criar sites, aplicativos da Web e extensões do Chrome.

Compartilhe o que você criou com a gente em @ChromiumDev ou no Chrome para desenvolvedores no LinkedIn.