L'accessibilità dei video vince il premio web del concorso per sviluppatori dell'API Gemini

Alexandra Klepper
Alexandra Klepper

Data di pubblicazione: 21 novembre 2024

Dopo aver ricevuto numerosi contributi incredibili alla competizione per sviluppatori dell'API Gemini, abbiamo selezionato la migliore applicazione web: ViddyScribe.

ViddyScribe è un esempio di come Gemini può contribuire a rendere i video più accessibili su YouTube e potenzialmente anche oltre, generando descrizioni audio di qualsiasi video personalizzate per le persone con disabilità visive.

Funzionalità e funzionalità di Gemini

ViddyScribe ha creato un'applicazione progettata incentrata sull'utente. Sebbene esistano già diverse soluzioni per generare trascrizioni e descrizioni audio, ViddyScribe ha dato la priorità alla creazione di un output che dia la priorità sia ai risultati rapidi sia a un'esperienza utente piacevole per un pubblico specifico: le persone con disabilità visive.

L'annotazione manuale dei video per fornire ulteriori dettagli a questo pubblico richiede troppo tempo e spesso viene trascurata. ViddyScribe ha utilizzato Gemini per contribuire a creare una soluzione personalizzata che va oltre l'aggiunta di alcune descrizioni arbitrarie dei fotogrammi a un file di testo.

ViddyScribe offre due sample e uno spazio di caricamento.
L'app ViddyScribe consente agli utenti di utilizzare un video di esempio o di caricarne uno proprio (di 100 MB e 2 minuti di durata) per generare descrizioni audio con Gemini.

ViddyScribe ha utilizzato l'ingegneria dei prompt per ottenere i risultati migliori, curando il linguaggio e lo stile delle domande per Gemini 1.5 Pro. Questo prompt ha utilizzato il prompt di associazione di idee per richiedere:

  • Scopo e contesto del video.
  • Descrizioni audio personalizzate utilizzando analisi e linee guida specifiche per i video.
  • I timestamp e le descrizioni sono stati riformattati per un formato prevedibile e coerente.

Perché abbiamo scelto ViddyScribe

Abbiamo scelto ViddyScribe perché era una soluzione elegante a un problema reale degli utenti.

Sebbene abbiano scoperto che sul mercato sono disponibili altre applicazioni che forniscono descrizioni audio, hanno ritenuto che le esigenze delle persone sorde e ipovedenti non fossero state completamente comprese. Questi sviluppatori hanno lavorato con persone reali che hanno queste disabilità per determinare esattamente di cosa avevano bisogno in un'applicazione di descrizione audio.

L'esperienza delle persone con disabilità può variare notevolmente e, a volte, possono avere esigenze in concorrenza. Inoltre, le descrizioni audio possono rendere questi video accessibili anche a persone neurodivergenti e ad altri che preferiscono leggere una trascrizione anziché guardare un video.

Non vediamo l'ora di vedere come gli sviluppatori continueranno a migliorare ViddyScribe, ampliando il pubblico e le funzionalità in futuro.

Continua a creare con le API di IA integrate

ViddyScribe era solo una delle tante fantastiche applicazioni che hai creato con Gemini.

Stiamo sviluppando l'AI integrata: API della piattaforma web e funzionalità del browser progettate per integrare i modelli di IA, inclusi i modelli linguistici di grandi dimensioni (LLM), direttamente nel browser. Sono inclusi Gemini Nano, la versione più efficiente della famiglia di LLM Gemini, progettata per essere eseguita localmente sulla maggior parte dei computer desktop e laptop moderni.

Scopri le API disponibili per iniziare a creare siti web, applicazioni web ed estensioni di Chrome potenti.

Condividi con noi ciò che crei su @ChromiumDev o con Chrome for Developers su LinkedIn.