Data publikacji: 21 listopada 2024 r.
Po otrzymaniu wielu niesamowitych zgłoszeń do konkursu dla deweloperów interfejsu Gemini API wybraliśmy zwycięzcę w kategorii najlepsza aplikacja internetowa: ViddyScribe.
ViddyScribe pokazuje, jak Gemini może ułatwiać dostęp do filmów w YouTube i nie tylko, generując opisy dźwiękowe dowolnego filmu dostosowane do potrzeb osób z wadami wzroku.
Funkcje i możliwości Gemini
ViddyScribe to aplikacja zaprojektowana z myślą o użytkownikach. Istnieje już wiele rozwiązań do generowania transkrypcji i audiodeskrypcji, ale w przypadku ViddyScribe priorytetem było stworzenie narzędzia, które zapewnia szybkie wyniki i wygodę użytkowania dla konkretnej grupy odbiorców: osób z wadami wzroku.
Ręczne dodawanie adnotacji do filmów, aby przekazywać dodatkowe informacje tej grupie odbiorców, zajmuje zbyt dużo czasu i jest często zaniedbywane. ViddyScribe używa Gemini do tworzenia niestandardowych rozwiązań, które wykraczają poza dodawanie do pliku tekstowego opisów klatek.

ViddyScribe wykorzystuje inżynierię promptów, aby uzyskać najlepsze wyniki, dostosowując język i styl pytania do Gemini 1.5 Pro. Ten prompt wykorzystuje łańcuch myśli, aby poprosić o:
- cel i kontekst filmu;
- Dostosowane audiodeskrypcje na podstawie analizy i wytycznych dotyczących konkretnego filmu.
- Przekształcone sygnatury czasowe i opisy w przewidywalnym i spójnym formacie.
Dlaczego wybraliśmy ViddyScribe
Wybraliśmy ViddyScribe, ponieważ jest to eleganckie rozwiązanie prawdziwego problemu użytkowników.
Odkryli, że na rynku są inne aplikacje, które zapewniają opisy audio, ale uznali, że potrzeby osób głuchych i niedowidzących nie są w pełni rozumiane. Deweloperzy współpracowali z osobami z niepełnosprawnościami, aby dokładnie określić, czego potrzebują w aplikacji do audiodeskrypcji.
Doświadczenia osób z niepełnosprawnościami mogą się znacznie różnić, a czasami mogą mieć sprzeczne potrzeby. Dodatkowo audiodeskrypcja może ułatwić dostęp do tych filmów osobom z neurodywersją i innym, które wolą czytać transkrypcję niż oglądać film.
Z ciekawością będziemy obserwować, jak deweloperzy rozwijają ViddyScribe, zwiększając w przyszłości liczbę użytkowników i możliwości tej usługi.
Dalsze tworzenie z wykorzystaniem wbudowanych interfejsów API AI
ViddyScribe to tylko jedna z wielu niesamowitych aplikacji, które udało Ci się stworzyć za pomocą Gemini.
Tworzymy wbudowaną AI: interfejsy API platformy internetowej i funkcje przeglądarki zaprojektowane z myślą o integracji modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio z przeglądarką. Obejmuje to Gemini Nano, najbardziej wydajną wersję rodziny modeli LLM Gemini, która została zaprojektowana do działania lokalnego na większości nowoczesnych komputerów stacjonarnych i laptopów.
Poznaj dostępne interfejsy API, aby zacząć tworzyć zaawansowane strony internetowe, aplikacje internetowe i rozszerzenia do Chrome.
Podziel się z nami swoimi projektami na @ChromiumDev lub na LinkedInie w Chrome for Developers.