Доступность видео выиграла веб-награду конкурса разработчиков Gemini API Developer Competition

Опубликовано: 21 ноября 2024 г.

После многочисленных замечательных заявок на конкурс разработчиков Gemini API мы выбрали победителя в номинации «Лучшее веб-приложение»: ViddyScribe .

ViddyScribe демонстрирует, как Gemini может помочь сделать видео более доступными на YouTube и, возможно, за его пределами, создавая аудиоописания к любому видео, адаптированные для людей с нарушениями зрения.

Особенности и возможности Gemini

ViddyScribe создал приложение, разработанное с учетом потребностей пользователей. Несмотря на то, что уже существует ряд решений для создания стенограмм и аудиоописаний, ViddyScribe уделяет первоочередное внимание созданию результатов, которые отдают предпочтение как быстрым результатам, так и приятному пользовательскому опыту для конкретной аудитории: людей с нарушениями зрения.

Ручное аннотирование видео с целью предоставления дополнительной информации для этой аудитории занимает слишком много времени и часто им пренебрегают. ViddyScribe использовал Gemini для создания индивидуального решения, которое выходит за рамки добавления произвольных описаний кадров в текстовый файл.

ViddyScribe имеет два образца и место для загрузки.
Приложение ViddyScribe позволяет пользователям использовать образец видео или загружать свое собственное (длиной 100 МБ и 2 минуты) для создания аудиоописаний с помощью Gemini.

ViddyScribe использовал быстрое проектирование для достижения наилучших результатов, разрабатывая язык и стиль вопросов для Gemini 1.5 Pro. В этом приглашении использовалась цепочка мыслей для запроса:

  • Цель и контекст видео.
  • Адаптированные аудиоописания с использованием анализа и рекомендаций, специфичных для видео.
  • Переформатированные временные метки и описания для обеспечения предсказуемого и единообразного формата.

Почему мы выбрали ViddyScribe

Мы выбрали ViddyScribe, потому что это было элегантное решение реальной проблемы пользователя.

Хотя они обнаружили, что на рынке существуют и другие приложения, предоставляющие аудиоописания, они почувствовали, что потребности глухих и слабовидящих людей не полностью поняты. Эти разработчики работали с реальными людьми, имеющими эти нарушения, чтобы точно определить, что им нужно в приложении для описания аудио.

Опыт людей с ограниченными возможностями может сильно различаться, а иногда у них могут быть конкурирующие потребности. Кроме того, аудиоописания также могут сделать эти видео доступными для нейроотличных людей и других людей, которые предпочитают читать стенограмму, а не смотреть видео.

Мы рады видеть, как разработчики продолжают совершенствовать ViddyScribe, расширяя аудиторию и возможности в будущем.

Продолжайте строить с помощью встроенных AI API

ViddyScribe было лишь одним из многих замечательных приложений, которые вы создали с помощью Gemini.

Мы разрабатываем встроенные API-интерфейсы AI веб-платформы и функции браузера, предназначенные для интеграции моделей искусственного интеллекта, включая модели больших языков (LLM), непосредственно в браузер. Сюда входит Gemini Nano , наиболее эффективная версия семейства LLM Gemini, предназначенная для локального запуска на большинстве современных настольных и портативных компьютеров.

Откройте для себя доступные API , чтобы начать создавать мощные веб-сайты, веб-приложения и расширения Chrome.

Поделитесь с нами своими разработками на @ChromiumDev или поделитесь с Chrome для разработчиков на LinkedIn .