Publié le 21 novembre 2024
Après avoir reçu de nombreuses participations incroyables au concours pour les développeurs d'API Gemini, nous avons sélectionné le gagnant de la meilleure application Web : ViddyScribe.
ViddyScribe illustre comment Gemini peut rendre les vidéos plus accessibles sur YouTube, et potentiellement ailleurs, en générant des descriptions audio de n'importe quelle vidéo, adaptées aux personnes malvoyantes.
Fonctionnalités et capacités de Gemini
ViddyScribe a conçu une application axée sur l'utilisateur. Bien qu'il existe déjà plusieurs solutions pour générer des transcriptions et des descriptions audio, ViddyScribe a choisi de créer un résultat qui privilégie à la fois la rapidité et une expérience utilisateur agréable pour un public spécifique : les personnes souffrant d'un handicap visuel.
L'annotation manuelle des vidéos pour fournir des informations supplémentaires à cette audience prend trop de temps et est souvent négligée. ViddyScribe a utilisé Gemini pour créer une solution personnalisée qui va au-delà de l'ajout de descriptions de frames arbitraires à un fichier texte.

ViddyScribe a utilisé l'ingénierie des prompts pour obtenir les meilleurs résultats, en sélectionnant le langage et le style des questions pour Gemini 1.5 Pro. Ce prompt a utilisé le prompting par chaîne de pensée pour demander :
- L'objectif et le contexte de la vidéo.
- Des audiodescriptions personnalisées basées sur des analyses et des consignes spécifiques aux vidéos.
- Horodatages et descriptions reformatés pour un format prévisible et cohérent.
Pourquoi avons-nous choisi ViddyScribe ?
Nous avons choisi ViddyScribe, car il s'agissait d'une solution élégante à un problème d'utilisateur réel.
Bien qu'ils aient trouvé d'autres applications sur le marché proposant des descriptions audio, ils ont estimé que les besoins des personnes sourdes et malvoyantes n'étaient pas pleinement compris. Ces développeurs ont travaillé avec de vraies personnes souffrant de ces handicaps pour déterminer exactement ce dont elles avaient besoin dans une application de description audio.
L'expérience des personnes handicapées peut varier considérablement et, parfois, leurs besoins peuvent être contradictoires. De plus, les descriptions audio peuvent également rendre ces vidéos accessibles aux personnes neuroatypiques et à celles qui préfèrent lire une transcription plutôt que regarder une vidéo.
Nous avons hâte de voir comment les développeurs continueront à améliorer ViddyScribe, en élargissant l'audience et les fonctionnalités à l'avenir.
Continuez à développer avec les API d'IA intégrées
ViddyScribe n'était qu'une des nombreuses applications incroyables que vous avez créées avec Gemini.
Nous développons une IA intégrée : des API de plate-forme Web et des fonctionnalités de navigateur conçues pour intégrer des modèles d'IA, y compris des grands modèles de langage (LLM), directement dans le navigateur. Cela inclut Gemini Nano, la version la plus efficace de la famille de LLM Gemini, conçue pour s'exécuter localement sur la plupart des ordinateurs portables et de bureau modernes.
Découvrez les API disponibles pour commencer à créer des sites Web, des applications Web et des extensions Chrome performants.
Partagez vos créations avec nous sur @ChromiumDev ou sur Chrome pour les développeurs sur LinkedIn.