Film z informacjami o dostępności zdobył nagrodę internetową w konkursie dla deweloperów Gemini API

Alexandra Klepper
Alexandra Klepper

Data publikacji: 21 listopada 2024 r.

Po otrzymaniu wielu niesamowitych zgłoszeń do konkursu dla deweloperów interfejsu Gemini API wybraliśmy zwycięzcę w kategorii najlepszej aplikacji internetowej: ViddyScribe.

ViddyScribe pokazuje, jak Gemini może ułatwić dostęp do filmów w YouTube i poza nim, generując dźwiękowe opisy filmów, które są dostosowane do osób niedowidzących.

Funkcje i możliwości Gemini

ViddyScribe stworzył aplikację, która jest przyjazna użytkownikom. Chociaż istnieje już wiele rozwiązań do generowania transkrypcji i audiodeskrypcji, ViddyScribe postawiło sobie za priorytet tworzenie wyjścia, które stawia na pierwszym miejscu zarówno szybkie wyniki, jak i przyjemne wrażenia użytkownika dla konkretnej grupy odbiorców: osób z zaburzeniami wzroku.

Ręczne oznaczanie filmów, aby udostępnić dodatkowe informacje dla tej grupy odbiorców, zajmuje zbyt dużo czasu i często jest pomijane. Firma ViddyScribe wykorzystała Gemini do utworzenia niestandardowego rozwiązania, które umożliwia skalowanie wykraczającego poza dodawanie dowolnych opisów klatek do pliku tekstowego.

ViddyScribe zawiera 2 próbki i miejsce na przesyłanie.
Aplikacja ViddyScribe umożliwia użytkownikom użycie przykładowego filmu lub przesłanie własnego (o wielkości do 100 MB i długości do 2 min), aby wygenerować ścieżkę audio za pomocą Gemini.

Aby uzyskać najlepsze wyniki, ViddyScribe wykorzystała inżynierię promptów, dostosowując język i styl pytań do Gemini 1.5 Pro. Ten prompt używał łańcucha myśli, aby poprosić o:

  • cel i kontekst filmu;
  • dostosowane napisy audio na podstawie analizy i wytycznych dotyczących konkretnego filmu;
  • Zmienione formatowanie sygnatur czasowych i opisów w celu zapewnienia przewidywalności i spójności.

Dlaczego wybraliśmy ViddyScribe

Wybraliśmy ViddyScribe, ponieważ było to eleganckie rozwiązanie prawdziwego problemu użytkowników.

Chociaż na rynku dostępne są inne aplikacje z audiodeskrypcjami, zdaniem autorów nie spełniają one w pełni potrzeb osób niesłyszących i niewidomych. Aby dowiedzieć się, czego potrzebują użytkownicy z takimi niepełnosprawnościami, deweloperzy współpracowali z prawdziwymi osobami z takimi problemami.

Doświadczenia osób z niepełnosprawnością mogą się znacznie różnić, a czasem ich potrzeby mogą się wzajemnie wykluczać. Dodatkowo audiodeskrypcje mogą ułatwić dostęp do filmów osobom z zaburzeniami neurorozwojowymi oraz tym, które wolą czytać transkrypcję zamiast oglądać film.

Cieszymy się, że deweloperzy stale ulepszają ViddyScribe, zwiększając w ten sposób liczbę odbiorców i funkcjonalności tej usługi.

Dalsze tworzenie za pomocą wbudowanych interfejsów API AI

ViddyScribe to tylko jedna z wielu niesamowitych aplikacji stworzonych przez Ciebie za pomocą Gemini.

Opracowujemy wbudowaną AI: interfejsy API platformy internetowej i funkcje przeglądarki, które umożliwiają integrację modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio w przeglądarce. Dotyczy to Gemini Nano, czyli najbardziej wydajnej wersji modeli LLM z rodziny Gemini, która została zaprojektowana do uruchamiania lokalnie na większości nowoczesnych komputerów stacjonarnych i laptopów.

Poznaj dostępne interfejsy API, aby zacząć tworzyć wydajne witryny, aplikacje internetowe i rozszerzenia do Chrome.

Udostępniaj swoje rozwiązania na @ChromiumDev lub w grupie Chrome for Developers na LinkedIn.