A acessibilidade de vídeo vence o prêmio da Competição de desenvolvedores da API Gemini na Web

Alexandra Klepper
Alexandra Klepper

Publicado em: 21 de novembro de 2024

Depois de inúmeras inscrições incríveis na Competição de desenvolvedores da API Gemini, selecionamos o vencedor do melhor aplicativo da Web: ViddyScribe.

O ViddyScribe exemplifica como o Gemini pode ajudar a tornar os vídeos mais acessíveis no YouTube e em outras plataformas, gerando audiodescrições personalizadas para pessoas com deficiência visual.

Recursos e funcionalidades do Gemini

A ViddyScribe criou um aplicativo com design focado no usuário. Embora já existam várias soluções para gerar transcrições e audiodescrições, o ViddyScribe priorizou a criação de uma saída que prioriza resultados rápidos e uma experiência agradável para um público específico: pessoas com deficiência visual.

A anotação manual de vídeos para oferecer mais detalhes a esse público leva muito tempo e geralmente é negligenciada. O ViddyScribe usou o Gemini para criar uma solução personalizada que vai além de adicionar algumas descrições de frames arbitrárias a um arquivo de texto.

O ViddyScribe tem duas amostras e um espaço de upload.
Com o app ViddyScribe, os usuários podem usar um vídeo de exemplo ou fazer upload do próprio conteúdo (100 MB e 2 minutos de duração) para gerar audiodescrições com o Gemini.

O ViddyScribe usou a engenharia de comandos para ter os melhores resultados, selecionando a linguagem e o estilo das perguntas para o Gemini 1.5 Pro. Este comando usou comandos de fluxo de consciência para solicitar:

  • Propósito e contexto do vídeo.
  • Audiodescrições personalizadas usando análises e diretrizes específicas para vídeos.
  • Reformatação de carimbos de data/hora e descrições para um formato previsível e consistente.

Por que escolhemos o ViddyScribe

Escolhemos o ViddyScribe porque ele era uma solução elegante para um problema real do usuário.

Embora tenham encontrado outros aplicativos no mercado que ofereciam audiodescrições, eles sentiram que as necessidades das pessoas surdas e com deficiência visual não eram totalmente compreendidas. Esses desenvolvedores trabalharam com pessoas reais que têm essas deficiências para determinar exatamente o que elas precisavam em um aplicativo de audiodescrição.

A experiência das pessoas com deficiência pode variar muito e, às vezes, elas podem ter necessidades conflitantes. Além disso, as audiodescrições também podem tornar esses vídeos acessíveis a pessoas neurodivergentes e outras que preferem ler uma transcrição em vez de assistir um vídeo.

Estamos ansiosos para ver como os desenvolvedores vão continuar aprimorando o ViddyScribe, expandindo o público e os recursos no futuro.

Continue criando com as APIs de IA integradas

O ViddyScribe foi apenas um dos muitos aplicativos incríveis que você criou com o Gemini.

Estamos desenvolvendo a IA integrada: APIs da plataforma da Web e recursos do navegador projetados para integrar modelos de IA, incluindo modelos de linguagem grandes (LLMs), diretamente no navegador. Isso inclui o Gemini Nano, a versão mais eficiente da família de LLMs do Gemini, projetada para ser executada localmente na maioria dos computadores e laptops modernos.

Descubra as APIs disponíveis para começar a criar sites, aplicativos da Web e extensões do Chrome eficientes.

Compartilhe o que você cria com a gente em @ChromiumDev ou compartilhe com Chrome para desenvolvedores no LinkedIn.