Video erişilebilirliği, Gemini API Geliştirici Yarışması web ödülünü kazandı

Alexandra Klepper
Alexandra Klepper

Yayınlanma tarihi: 21 Kasım 2024

Gemini API Geliştirici Yarışması'na gönderilen çok sayıda inanılmaz başvurunun ardından en iyi web uygulamasının kazananını belirledik: ViddyScribe.

ViddyScribe, Gemini'ın YouTube'da ve muhtemelen diğer platformlarda videoları daha erişilebilir hâle getirmeye nasıl yardımcı olabileceğini gösteren bir örnektir. ViddyScribe, görme engelli kullanıcılara özel olarak hazırlanmış sesli açıklamalar oluşturur.

Özellikler ve Gemini'ın yetenekleri

ViddyScribe, kullanıcı odaklı bir uygulama geliştirdi. Transkript ve sesli açıklamalar oluşturmak için halihazırda çeşitli çözümler olsa da ViddyScribe, belirli bir kitle (görme engelli kişiler) için hem hızlı sonuçlar hem de keyifli bir kullanıcı deneyimi sunan bir çıktı oluşturmaya öncelik verdi.

Videoların bu kitleye yönelik ek ayrıntılar sunmak için manuel olarak açıklama eklenmesi çok fazla zaman alıyor ve genellikle ihmal ediliyor. ViddyScribe, Gemini'ı kullanarak metin dosyasına rastgele çerçeve açıklamaları eklemenin ötesine geçen özel bir çözüm oluşturdu.

ViddyScribe'da iki örnek ve bir yükleme alanı bulunur.
ViddyScribe uygulaması, kullanıcıların Gemini ile sesli açıklamalar oluşturmak için örnek bir video kullanmasına veya kendi videolarını (100 MB ve 2 dakika uzunluğunda) yüklemesine olanak tanır.

ViddyScribe, en iyi sonuçları elde etmek için istem mühendisliği'ni kullanarak Gemini 1.5 Pro için soru dilini ve stilini düzenledi. Bu istemde, zincirleme düşünme istemi kullanılarak şunlar isteniyor:

  • Videonun amacı ve bağlamı
  • Videoya özel analiz ve kurallar kullanılarak hazırlanmış sesli açıklamalar.
  • Öngörülebilir ve tutarlı bir biçim için yeniden biçimlendirilmiş zaman damgaları ve açıklamalar.

Neden ViddyScribe'ı seçtik?

ViddyScribe'ı, gerçek bir kullanıcı sorununa zarif bir çözüm sunduğu için seçtik.

Piyasada sesli açıklamalar sunan başka uygulamalar olduğunu fark eden ekip, işitme ve görme engelli kişilerin ihtiyaçlarının tam olarak anlaşılmadığını düşünüyordu. Bu geliştiriciler, sesli açıklama uygulamasında tam olarak neye ihtiyaç duyduklarını belirlemek için bu engellere sahip gerçek kişilerle birlikte çalıştı.

Engelli kullanıcıların deneyimleri büyük farklılıklar gösterebilir ve bazen bu kullanıcıların ihtiyaçları birbiriyle çelişebilir. Ayrıca sesli açıklamalar, bu videoları nöroçeşitliliği olan kişilerin ve video izlemek yerine transkript okumayı tercih eden diğer kullanıcıların erişimine de açabilir.

Geliştiricilerin ViddyScribe'ı geliştirmeye devam ederek gelecekte kitlesini ve özelliklerini nasıl genişleteceğini görmek için sabırsızlanıyoruz.

Yerleşik yapay zeka API'leriyle geliştirmeye devam edin

ViddyScribe, Gemini ile oluşturduğunuz birçok harika uygulamadan yalnızca biriydi.

Yerleşik yapay zeka geliştiriyoruz: Büyük dil modelleri (LLM'ler) dahil olmak üzere yapay zeka modellerini doğrudan tarayıcıya entegre etmek için tasarlanmış web platformu API'leri ve tarayıcı özellikleri. Bu sürüm, Gemini ailesindeki en verimli LLM sürümü olan Gemini Nano'yu içerir. Gemini Nano, çoğu modern masaüstü ve dizüstü bilgisayarda yerel olarak çalışacak şekilde tasarlanmıştır.

Güçlü web siteleri, web uygulamaları ve Chrome uzantıları oluşturmaya başlamak için kullanılabilir API'leri keşfedin.

Geliştirdiklerinizi @ChromiumDev adresinden bizimle veya LinkedIn'de Chrome for Developers ile paylaşın.