Data di pubblicazione: 21 novembre 2024
Dopo numerose candidature incredibili alla competizione per sviluppatori dell'API Gemini, abbiamo selezionato il vincitore per la migliore applicazione web: ViddyScribe.
ViddyScribe è un esempio di come Gemini può contribuire a rendere i video più accessibili su YouTube e potenzialmente anche altrove, generando descrizioni audio di qualsiasi video adatte alle persone con disabilità visive.
Funzionalità e capacità di Gemini
ViddyScribe ha creato un'applicazione progettata per gli utenti. Sebbene esistano già diverse soluzioni per generare trascrizioni e descrizioni audio, ViddyScribe ha dato la priorità alla creazione di un output che privilegiasse sia risultati rapidi sia un' esperienza utente piacevole per un pubblico specifico: le persone con disabilità visive.
L'annotazione manuale dei video per offrire dettagli aggiuntivi a questo pubblico richiede troppo tempo e viene spesso trascurata. ViddyScribe ha utilizzato Gemini per creare una soluzione personalizzata che va oltre l'aggiunta di descrizioni di frame arbitrarie a un file di testo.

ViddyScribe ha utilizzato l'ingegneria dei prompt per ottenere i risultati migliori, selezionando il linguaggio e lo stile delle domande per Gemini 1.5 Pro. Questo prompt ha utilizzato la tecnica di chain-of-thought prompting per richiedere:
- Scopo e contesto del video.
- Descrizioni audio personalizzate utilizzando analisi e linee guida specifiche per i video.
- Timestamp e descrizioni riformattati per un formato prevedibile e coerente.
Perché abbiamo scelto ViddyScribe
Abbiamo scelto ViddyScribe perché era una soluzione elegante a un problema reale degli utenti.
Sebbene abbiano riscontrato la presenza sul mercato di altre applicazioni che forniscono descrizioni audio, hanno ritenuto che le esigenze delle persone sorde e con disabilità visiva non fossero pienamente comprese. Questi sviluppatori hanno collaborato con persone reali che hanno queste disabilità per determinare esattamente di cosa avevano bisogno in un'applicazione di descrizione audio.
L'esperienza delle persone con disabilità può variare notevolmente e, a volte, possono avere esigenze contrastanti. Inoltre, le descrizioni audio possono rendere questi video accessibili a persone neurodivergenti e ad altre che preferiscono leggere una trascrizione anziché guardare un video.
Non vediamo l'ora di scoprire come gli sviluppatori continueranno a migliorare ViddyScribe, espandendo il pubblico e le funzionalità in futuro.
Continua a creare con le API AI integrate
ViddyScribe è solo una delle tante fantastiche applicazioni che hai creato con Gemini.
Stiamo sviluppando un'AI integrata: API della piattaforma web e funzionalità del browser progettate per integrare i modelli di AI, inclusi i modelli linguistici di grandi dimensioni (LLM), direttamente nel browser. Ciò include Gemini Nano, la versione più efficiente della famiglia di LLM Gemini, progettata per essere eseguita localmente sulla maggior parte dei computer desktop e laptop moderni.
Scopri le API disponibili per iniziare a creare siti web, applicazioni web ed estensioni di Chrome efficaci.
Condividi con noi le tue creazioni all'indirizzo @ChromiumDev o condividile con Chrome for Developers su LinkedIn.