Videotoegankelijkheid wint de webprijs Gemini API Developer Competition

Alexandra Klepper
Alexandra Klepper

Gepubliceerd: 21 november 2024

Na talloze fantastische inzendingen voor de Gemini API Developer Competition hebben we de winnaar voor beste webapplicatie geselecteerd: ViddyScribe .

ViddyScribe is een voorbeeld van hoe Gemini video's toegankelijker kan maken op YouTube, en mogelijk zelfs daarbuiten, door audiobeschrijvingen te genereren van video's die zijn afgestemd op mensen met een visuele beperking.

Functies en mogelijkheden van Gemini

ViddyScribe heeft een gebruikersgerichte applicatie ontwikkeld. Hoewel er al verschillende oplossingen bestaan om transcripties en audiobeschrijvingen te genereren, gaf ViddyScribe prioriteit aan het creëren van een output die zowel snelle resultaten als een prettige gebruikerservaring voor een specifieke doelgroep vooropstelt: mensen met een visuele beperking.

Het handmatig annoteren van video's om extra details aan te bieden aan deze doelgroep kost te veel tijd en wordt vaak verwaarloosd. ViddyScribe gebruikte Gemini om een oplossing op maat te ontwikkelen die verder gaat dan het toevoegen van willekeurige framebeschrijvingen aan een tekstbestand.

ViddyScribe heeft twee samples en uploadruimte.
Met de ViddyScribe-app kunnen gebruikers een voorbeeldvideo gebruiken of hun eigen video uploaden (100 MB en 2 minuten lang) om audiobeschrijvingen te genereren met Gemini.

ViddyScribe gebruikte prompt engineering om de beste resultaten te behalen en selecteerde de vraagtaal en -stijl voor Gemini 1.5 Pro. Deze prompt gebruikte een gedachteketen om het volgende te vragen:

  • Doel en context van de video.
  • Op maat gemaakte audiobeschrijvingen met behulp van videospecifieke analyses en richtlijnen.
  • Opnieuw geformatteerde tijdstempels en beschrijvingen voor een voorspelbaar en consistent formaat.

Waarom we voor ViddyScribe hebben gekozen

Wij kozen voor ViddyScribe omdat het een elegante oplossing was voor een echt gebruikersprobleem.

Hoewel ze ontdekten dat er andere applicaties op de markt waren die audiodescriptie boden, vonden ze dat de behoeften van doven en slechtzienden niet volledig werden begrepen. Deze ontwikkelaars werkten met echte mensen met deze beperkingen om precies te bepalen wat zij nodig hadden in een audiodescriptie-applicatie.

De ervaringen van mensen met een beperking kunnen sterk verschillen en soms kunnen ze tegenstrijdige behoeften hebben. Bovendien kunnen audiobeschrijvingen deze video's ook toegankelijk maken voor mensen met een neurodivergentie en anderen die liever een transcript lezen dan een video bekijken.

We zijn benieuwd hoe ontwikkelaars ViddyScribe blijven verbeteren en zo in de toekomst het publiek en de mogelijkheden ervan kunnen uitbreiden.

Blijf bouwen met ingebouwde AI API's

ViddyScribe was slechts één van de vele geweldige applicaties die je met Gemini hebt gebouwd.

We ontwikkelen ingebouwde AI : webplatform-API's en browserfuncties die ontworpen zijn om AI-modellen, waaronder grote taalmodellen (LLM's), rechtstreeks in de browser te integreren. Dit omvat Gemini Nano , de meest efficiënte versie van de Gemini-familie van LLM's, ontworpen om lokaal te draaien op de meeste moderne desktop- en laptopcomputers.

Ontdek de beschikbare API's om krachtige websites, webapplicaties en Chrome-extensies te bouwen.

Deel wat u bouwt met ons via @ChromiumDev of deel het met Chrome for Developers op LinkedIn .