Data publikacji: 21 listopada 2024 r.
Po otrzymaniu wielu niesamowitych zgłoszeń do konkursu dla deweloperów interfejsu Gemini API wybraliśmy zwycięzcę w kategorii najlepszej aplikacji internetowej: ViddyScribe.
ViddyScribe pokazuje, jak Gemini może ułatwić dostęp do filmów w YouTube i poza nim, generując dźwiękowe opisy filmów, które są dostosowane do osób niedowidzących.
Funkcje i możliwości Gemini
ViddyScribe stworzył aplikację, która jest przyjazna użytkownikom. Chociaż istnieje już wiele rozwiązań do generowania transkrypcji i audiodeskrypcji, ViddyScribe postawiło sobie za priorytet tworzenie wyjścia, które stawia na pierwszym miejscu zarówno szybkie wyniki, jak i przyjemne wrażenia użytkownika dla konkretnej grupy odbiorców: osób z zaburzeniami wzroku.
Ręczne oznaczanie filmów, aby udostępnić dodatkowe informacje dla tej grupy odbiorców, zajmuje zbyt dużo czasu i często jest pomijane. Firma ViddyScribe wykorzystała Gemini do utworzenia niestandardowego rozwiązania, które umożliwia skalowanie wykraczającego poza dodawanie dowolnych opisów klatek do pliku tekstowego.
Aby uzyskać najlepsze wyniki, ViddyScribe wykorzystała inżynierię promptów, dostosowując język i styl pytań do Gemini 1.5 Pro. Ten prompt używał łańcucha myśli, aby poprosić o:
- cel i kontekst filmu;
- dostosowane napisy audio na podstawie analizy i wytycznych dotyczących konkretnego filmu;
- Zmienione formatowanie sygnatur czasowych i opisów w celu zapewnienia przewidywalności i spójności.
Dlaczego wybraliśmy ViddyScribe
Wybraliśmy ViddyScribe, ponieważ było to eleganckie rozwiązanie prawdziwego problemu użytkowników.
Chociaż na rynku dostępne są inne aplikacje z audiodeskrypcjami, zdaniem autorów nie spełniają one w pełni potrzeb osób niesłyszących i niewidomych. Aby dowiedzieć się, czego potrzebują użytkownicy z takimi niepełnosprawnościami, deweloperzy współpracowali z prawdziwymi osobami z takimi problemami.
Doświadczenia osób z niepełnosprawnością mogą się znacznie różnić, a czasem ich potrzeby mogą się wzajemnie wykluczać. Dodatkowo audiodeskrypcje mogą ułatwić dostęp do filmów osobom z zaburzeniami neurorozwojowymi oraz tym, które wolą czytać transkrypcję zamiast oglądać film.
Cieszymy się, że deweloperzy stale ulepszają ViddyScribe, zwiększając w ten sposób liczbę odbiorców i funkcjonalności tej usługi.
Dalsze tworzenie za pomocą wbudowanych interfejsów API AI
ViddyScribe to tylko jedna z wielu niesamowitych aplikacji stworzonych przez Ciebie za pomocą Gemini.
Opracowujemy wbudowaną AI: interfejsy API platformy internetowej i funkcje przeglądarki, które umożliwiają integrację modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio w przeglądarce. Dotyczy to Gemini Nano, czyli najbardziej wydajnej wersji modeli LLM z rodziny Gemini, która została zaprojektowana do uruchamiania lokalnie na większości nowoczesnych komputerów stacjonarnych i laptopów.
Poznaj dostępne interfejsy API, aby zacząć tworzyć wydajne witryny, aplikacje internetowe i rozszerzenia do Chrome.
Udostępniaj swoje rozwiązania na @ChromiumDev lub w grupie Chrome for Developers na LinkedIn.