Yayınlanma tarihi: 21 Kasım 2024
Gemini API Geliştirici Yarışması'na gönderilen çok sayıda inanılmaz başvurunun ardından en iyi web uygulamasının kazananını belirledik: ViddyScribe.
ViddyScribe, Gemini'ın YouTube'da ve muhtemelen diğer platformlarda videoları daha erişilebilir hâle getirmeye nasıl yardımcı olabileceğini gösteren bir örnektir. ViddyScribe, görme engelli kullanıcılara özel olarak hazırlanmış sesli açıklamalar oluşturur.
Özellikler ve Gemini'ın yetenekleri
ViddyScribe, kullanıcı odaklı bir uygulama geliştirdi. Transkript ve sesli açıklamalar oluşturmak için halihazırda çeşitli çözümler olsa da ViddyScribe, belirli bir kitle (görme engelli kişiler) için hem hızlı sonuçlar hem de keyifli bir kullanıcı deneyimi sunan bir çıktı oluşturmaya öncelik verdi.
Videoların bu kitleye yönelik ek ayrıntılar sunmak için manuel olarak açıklama eklenmesi çok fazla zaman alıyor ve genellikle ihmal ediliyor. ViddyScribe, Gemini'ı kullanarak metin dosyasına rastgele çerçeve açıklamaları eklemenin ötesine geçen özel bir çözüm oluşturdu.

ViddyScribe, en iyi sonuçları elde etmek için istem mühendisliği'ni kullanarak Gemini 1.5 Pro için soru dilini ve stilini düzenledi. Bu istemde, zincirleme düşünme istemi kullanılarak şunlar isteniyor:
- Videonun amacı ve bağlamı
- Videoya özel analiz ve kurallar kullanılarak hazırlanmış sesli açıklamalar.
- Öngörülebilir ve tutarlı bir biçim için yeniden biçimlendirilmiş zaman damgaları ve açıklamalar.
Neden ViddyScribe'ı seçtik?
ViddyScribe'ı, gerçek bir kullanıcı sorununa zarif bir çözüm sunduğu için seçtik.
Piyasada sesli açıklamalar sunan başka uygulamalar olduğunu fark eden ekip, işitme ve görme engelli kişilerin ihtiyaçlarının tam olarak anlaşılmadığını düşünüyordu. Bu geliştiriciler, sesli açıklama uygulamasında tam olarak neye ihtiyaç duyduklarını belirlemek için bu engellere sahip gerçek kişilerle birlikte çalıştı.
Engelli kullanıcıların deneyimleri büyük farklılıklar gösterebilir ve bazen bu kullanıcıların ihtiyaçları birbiriyle çelişebilir. Ayrıca sesli açıklamalar, bu videoları nöroçeşitliliği olan kişilerin ve video izlemek yerine transkript okumayı tercih eden diğer kullanıcıların erişimine de açabilir.
Geliştiricilerin ViddyScribe'ı geliştirmeye devam ederek gelecekte kitlesini ve özelliklerini nasıl genişleteceğini görmek için sabırsızlanıyoruz.
Yerleşik yapay zeka API'leriyle geliştirmeye devam edin
ViddyScribe, Gemini ile oluşturduğunuz birçok harika uygulamadan yalnızca biriydi.
Yerleşik yapay zeka geliştiriyoruz: Büyük dil modelleri (LLM'ler) dahil olmak üzere yapay zeka modellerini doğrudan tarayıcıya entegre etmek için tasarlanmış web platformu API'leri ve tarayıcı özellikleri. Bu sürüm, Gemini ailesindeki en verimli LLM sürümü olan Gemini Nano'yu içerir. Gemini Nano, çoğu modern masaüstü ve dizüstü bilgisayarda yerel olarak çalışacak şekilde tasarlanmıştır.
Güçlü web siteleri, web uygulamaları ve Chrome uzantıları oluşturmaya başlamak için kullanılabilir API'leri keşfedin.
Geliştirdiklerinizi @ChromiumDev adresinden bizimle veya LinkedIn'de Chrome for Developers ile paylaşın.