Доступность видео выиграла веб-награду конкурса разработчиков Gemini API Developer Competition

Александра Клеппер
Alexandra Klepper

Опубликовано: 21 ноября 2024 г.

После получения множества отличных заявок на конкурс разработчиков API Gemini мы выбрали победителя в номинации «Лучшее веб-приложение»: ViddyScribe .

ViddyScribe служит примером того, как Gemini может помочь сделать видеоролики более доступными на YouTube и, возможно, за его пределами, создавая аудиоописания любого видеоролика, адаптированные для людей с нарушениями зрения.

Особенности и возможности Gemini

Компания ViddyScribe создала приложение, ориентированное на пользователя. Хотя уже существует ряд решений для создания транскрипций и аудиоописаний, ViddyScribe поставила перед собой задачу создать продукт, который обеспечивает как быстрые результаты, так и приятный пользовательский опыт для конкретной аудитории: людей с нарушениями зрения.

Ручное аннотирование видео для предоставления дополнительной информации этой аудитории занимает слишком много времени и часто игнорируется. ViddyScribe использовал Gemini для создания индивидуального решения, масштабируемого за пределы добавления произвольных описаний кадров в текстовый файл.

ViddyScribe предлагает два образца и место для загрузки.
Приложение ViddyScribe позволяет пользователям использовать образец видео или загружать свой собственный (объемом 100 МБ и продолжительностью 2 минуты) для создания аудиоописаний с помощью Gemini.

ViddyScribe использовала технологию подсказок для достижения наилучших результатов, подобрав язык и стиль вопросов для Gemini 1.5 Pro. В этой подсказке использовалась цепочка мыслей для запроса:

  • Цель и контекст видео.
  • Индивидуальные аудиоописания с использованием анализа и рекомендаций, специфичных для видео.
  • Переформатированные временные метки и описания для предсказуемого и единообразного формата.

Почему мы выбрали ViddyScribe

Мы выбрали ViddyScribe, потому что это элегантное решение реальной проблемы пользователя.

Хотя они обнаружили, что на рынке существуют другие приложения с аудиодескрипцией, они сочли, что потребности людей с нарушениями слуха и зрения не до конца поняты. Разработчики работали с реальными людьми с такими нарушениями, чтобы точно определить, что им нужно от приложения с аудиодескрипцией.

Опыт людей с ограниченными возможностями может быть очень разным, и иногда у них могут быть противоречивые потребности. Кроме того, аудиодескрипции могут сделать эти видео доступными для людей с нейроотличиями и тех, кто предпочитает читать расшифровку вместо просмотра видео.

Мы с нетерпением ждем, как разработчики продолжат совершенствовать ViddyScribe, расширяя аудиторию и возможности в будущем.

Продолжайте разработку с помощью встроенных API ИИ

ViddyScribe — это лишь одно из многих замечательных приложений, созданных вами с помощью Gemini.

Мы разрабатываем встроенные функции искусственного интеллекта : API веб-платформ и функции браузера, предназначенные для интеграции моделей искусственного интеллекта, включая большие языковые модели (LLM), непосредственно в браузер. В их число входит Gemini Nano , самая эффективная версия семейства LLM Gemini, предназначенная для локальной работы на большинстве современных настольных компьютеров и ноутбуков.

Откройте для себя доступные API , чтобы приступить к созданию мощных веб-сайтов, веб-приложений и расширений Chrome.

Поделитесь своими разработками с нами на @ChromiumDev или поделитесь ими с Chrome for Developers на LinkedIn .