L'accessibilité des vidéos remporte le prix Web du concours pour les développeurs sur l'API Gemini

Alexandra Klepper
Alexandra Klepper

Publié le 21 novembre 2024

Après de nombreuses soumissions incroyables au concours pour les développeurs sur l'API Gemini, nous avons sélectionné la meilleure application Web : ViddyScribe.

ViddyScribe illustre comment Gemini peut contribuer à rendre les vidéos plus accessibles sur YouTube, et potentiellement au-delà, en générant des descriptions audio de n'importe quelle vidéo adaptées aux personnes ayant une déficience visuelle.

Fonctionnalités et fonctionnalités Gemini

ViddyScribe a conçu une application centrée sur l'utilisateur. Bien qu'un certain nombre de solutions existent déjà pour générer des transcriptions et des descriptions audio, ViddyScribe a privilégié la création d'un résultat qui priorise à la fois des résultats rapides et une expérience utilisateur agréable pour une audience spécifique: les personnes ayant des troubles visuels.

L'annotation manuelle des vidéos pour fournir des informations supplémentaires à cette audience prend trop de temps et est souvent négligée. ViddyScribe a utilisé Gemini pour créer une solution personnalisée qui va au-delà de l'ajout de descriptions de frames arbitraires à un fichier texte.

ViddyScribe propose deux exemples et un espace d'importation.
L'application ViddyScribe permet aux utilisateurs d'utiliser un extrait vidéo ou d'importer le leur (100 Mo et 2 minutes de long) pour générer des descriptions audio avec Gemini.

ViddyScribe a utilisé l'ingénierie des requêtes pour obtenir les meilleurs résultats, en sélectionnant le langage et le style des questions pour Gemini 1.5 Pro. Cette requête a utilisé des requêtes en chaîne de pensée pour demander:

  • L'objectif et le contexte de la vidéo
  • Descriptions audio personnalisées à l'aide d'une analyse et de consignes spécifiques à la vidéo.
  • Les codes temporels et les descriptions ont été reformatsés pour un format prévisible et cohérent.

Pourquoi nous avons choisi ViddyScribe

Nous avons choisi ViddyScribe, car il s'agissait d'une solution élégante à un problème réel des utilisateurs.

Bien qu'il ait constaté que d'autres applications du marché fournissaient des descriptions audio, il a estimé que les besoins des personnes sourdes et malvoyantes n'étaient pas pleinement compris. Ces développeurs ont travaillé avec des personnes ayant ces handicaps pour déterminer exactement ce dont elles avaient besoin dans une application de description audio.

L'expérience des personnes ayant un handicap peut varier considérablement, et elles peuvent parfois avoir des besoins contradictoires. De plus, les descriptions audio peuvent également rendre ces vidéos accessibles aux personnes neurodivergentes et à celles qui préfèrent lire une transcription plutôt que de regarder une vidéo.

Nous sommes ravis de voir comment les développeurs continuent d'améliorer ViddyScribe, en élargissant l'audience et les fonctionnalités à l'avenir.

Continuer à créer avec les API d'IA intégrées

ViddyScribe n'était qu'une des nombreuses applications incroyables que vous avez créées avec Gemini.

Nous développons une IA intégrée: des API de plate-forme Web et des fonctionnalités de navigateur conçues pour intégrer des modèles d'IA, y compris de grands modèles de langage (LLM), directement dans le navigateur. Cela inclut Gemini Nano, la version la plus efficace de la famille de LLM Gemini, conçue pour s'exécuter localement sur la plupart des ordinateurs de bureau et portables modernes.

Découvrez les API disponibles pour commencer à créer des sites Web, des applications Web et des extensions Chrome performants.

Partagez avec nous ce que vous créez sur @ChromiumDev ou sur Chrome pour les développeurs sur LinkedIn.