Aksesibilitas video memenangkan penghargaan web Kompetisi Developer Gemini API

Alexandra Klepper
Alexandra Klepper

Dipublikasikan: 21 November 2024

Setelah menerima banyak kiriman luar biasa untuk Kompetisi Developer Gemini API, kami telah memilih pemenang untuk aplikasi web terbaik: ViddyScribe.

ViddyScribe menunjukkan bagaimana Gemini dapat membantu membuat video lebih mudah diakses di YouTube, dan mungkin di platform lain, dengan membuat deskripsi audio dari video apa pun yang disesuaikan untuk orang-orang yang memiliki gangguan penglihatan.

Fitur dan kemampuan Gemini

ViddyScribe membuat aplikasi yang dirancang dengan mengutamakan pengguna. Meskipun sejumlah solusi sudah ada untuk membuat transkrip dan deskripsi audio, ViddyScribe memprioritaskan pembuatan output yang mengutamakan hasil cepat dan pengalaman pengguna yang menyenangkan untuk audiens tertentu: orang-orang dengan gangguan penglihatan.

Anotasi manual video untuk menawarkan detail tambahan bagi audiens ini membutuhkan waktu terlalu lama, dan sering diabaikan. ViddyScribe menggunakan Gemini untuk membantu membuat solusi kustom yang dapat diskalakan lebih dari sekadar menambahkan beberapa deskripsi frame arbitrer ke file teks.

ViddyScribe memiliki dua sampel dan ruang upload.
Aplikasi ViddyScribe memungkinkan pengguna menggunakan video contoh atau mengupload video mereka sendiri (berukuran 100 MB dan berdurasi 2 menit) untuk membuat deskripsi audio dengan Gemini.

ViddyScribe menggunakan rekayasa perintah untuk mendapatkan hasil terbaik, dengan menyeleksi bahasa dan gaya pertanyaan untuk Gemini 1.5 Pro. Perintah ini menggunakan prompting chain-of-thought untuk meminta:

  • Tujuan dan konteks video.
  • Deskripsi audio yang disesuaikan menggunakan analisis dan pedoman khusus video.
  • Stempel waktu dan deskripsi yang diformat ulang untuk format yang dapat diprediksi dan konsisten.

Alasan kami memilih ViddyScribe

Kami memilih ViddyScribe karena merupakan solusi elegan untuk masalah nyata yang dialami pengguna.

Meskipun mereka menemukan aplikasi lain di pasar yang menyediakan deskripsi audio, mereka merasa kebutuhan orang-orang yang tuli dan tunanetra belum sepenuhnya dipahami. Developer ini bekerja sama dengan orang-orang yang benar-benar memiliki disabilitas ini untuk menentukan secara tepat apa yang mereka butuhkan dalam aplikasi deskripsi audio.

Pengalaman penyandang disabilitas dapat sangat bervariasi, dan terkadang, mereka mungkin memiliki kebutuhan yang saling bertentangan. Selain itu, deskripsi audio juga dapat membuat video ini dapat diakses oleh orang-orang yang neurodivergen dan orang lain yang lebih suka membaca transkrip daripada menonton video.

Kami ingin melihat bagaimana developer terus meningkatkan ViddyScribe, memperluas audiens dan kemampuan di masa mendatang.

Terus membangun dengan API AI bawaan

ViddyScribe hanyalah salah satu dari banyak aplikasi luar biasa yang Anda buat dengan Gemini.

Kami mengembangkan AI bawaan: API platform web dan fitur browser yang dirancang untuk mengintegrasikan model AI, termasuk model bahasa besar (LLM), langsung ke browser. Hal ini mencakup Gemini Nano, versi paling efisien dari LLM keluarga Gemini, yang dirancang untuk berjalan secara lokal di sebagian besar komputer desktop dan laptop modern.

Temukan API yang tersedia untuk mulai membuat situs, aplikasi web, dan Ekstensi Chrome yang canggih.

Bagikan hasil karya Anda kepada kami di @ChromiumDev atau bagikan kepada Chrome untuk Developer di LinkedIn.