Videotoegankelijkheid wint de webprijs Gemini API Developer Competition

Gepubliceerd: 21 november 2024

Na talloze ongelooflijke inzendingen voor de Gemini API Developer Competition hebben we de winnaar voor de beste webapplicatie geselecteerd: ViddyScribe .

ViddyScribe illustreert hoe Gemini kan helpen video's toegankelijker te maken op YouTube, en mogelijk ook daarbuiten, door audiobeschrijvingen te genereren van elke video die is afgestemd op mensen met een visuele beperking.

Functies en Gemini-mogelijkheden

ViddyScribe heeft een door de gebruiker ontworpen applicatie gebouwd. Hoewel er al een aantal oplossingen bestaan ​​om transcripties en audiobeschrijvingen te genereren, gaf ViddyScribe prioriteit aan het creëren van een output die prioriteit geeft aan zowel snelle resultaten als een prettige gebruikerservaring voor een specifiek publiek: mensen met een visuele beperking.

Het handmatig annoteren van video's om extra details voor dit publiek te bieden, kost te veel tijd en wordt vaak verwaarloosd. ViddyScribe gebruikte Gemini om een ​​oplossing op maat te creëren die verder reikt dan het toevoegen van enkele willekeurige framebeschrijvingen aan een tekstbestand.

ViddyScribe heeft twee voorbeelden en een uploadruimte.
Met de ViddyScribe-app kunnen gebruikers een voorbeeldvideo gebruiken of hun eigen video uploaden (100 MB en 2 minuten lang) om audiobeschrijvingen te genereren met Gemini.

ViddyScribe gebruikte snelle engineering om de beste resultaten te behalen, door de vraagtaal en -stijl voor Gemini 1.5 Pro te beheren. Deze prompt maakte gebruik van een gedachtegang om het volgende aan te vragen:

  • Doel en context van de video.
  • Op maat gemaakte audiobeschrijvingen met behulp van videospecifieke analyses en richtlijnen.
  • Opnieuw geformatteerde tijdstempels en beschrijvingen voor een voorspelbaar en consistent formaat.

Waarom we voor ViddyScribe hebben gekozen

We kozen voor ViddyScribe omdat het een elegante oplossing was voor een echt gebruikersprobleem.

Hoewel ze ontdekten dat er andere toepassingen op de markt waren die audiobeschrijvingen aanboden, waren ze van mening dat de behoeften van mensen die doof en slechtziend zijn, niet volledig werden begrepen. Deze ontwikkelaars werkten met echte mensen met deze beperkingen om precies te bepalen wat ze nodig hadden in een audiodescriptietoepassing.

De ervaringen van mensen met een handicap kunnen enorm variëren, en soms kunnen ze concurrerende behoeften hebben. Bovendien kunnen audiobeschrijvingen deze video's ook toegankelijk maken voor mensen die neurodivergerend zijn en voor anderen die liever een transcript lezen dan een video bekijken.

We zijn enthousiast om te zien hoe ontwikkelaars ViddyScribe blijven verbeteren, waardoor het publiek en de mogelijkheden in de toekomst worden uitgebreid.

Blijf bouwen met ingebouwde AI API's

ViddyScribe was slechts een van de vele geweldige applicaties die je met Gemini hebt gebouwd.

We ontwikkelen ingebouwde AI : webplatform-API's en browserfuncties die zijn ontworpen om AI-modellen, inclusief grote taalmodellen (LLM's), rechtstreeks in de browser te integreren. Dit omvat Gemini Nano , de meest efficiënte versie van de Gemini-familie van LLM's, ontworpen om lokaal te draaien op de meeste moderne desktop- en laptopcomputers.

Ontdek de beschikbare API's om krachtige websites, webapplicaties en Chrome-extensies te bouwen.

Deel wat u bouwt met ons op @ChromiumDev of deel met Chrome for Developers op LinkedIn .