Опубликовано: 21 ноября 2024 г.
После получения множества отличных заявок на конкурс разработчиков API Gemini мы выбрали победителя в номинации «Лучшее веб-приложение»: ViddyScribe .
ViddyScribe служит примером того, как Gemini может помочь сделать видеоролики более доступными на YouTube и, возможно, за его пределами, создавая аудиоописания любого видеоролика, адаптированные для людей с нарушениями зрения.
Особенности и возможности Gemini
Компания ViddyScribe создала приложение, ориентированное на пользователя. Хотя уже существует ряд решений для создания транскрипций и аудиоописаний, ViddyScribe поставила перед собой задачу создать продукт, который обеспечивает как быстрые результаты, так и приятный пользовательский опыт для конкретной аудитории: людей с нарушениями зрения.
Ручное аннотирование видео для предоставления дополнительной информации этой аудитории занимает слишком много времени и часто игнорируется. ViddyScribe использовал Gemini для создания индивидуального решения, масштабируемого за пределы добавления произвольных описаний кадров в текстовый файл.

ViddyScribe использовала технологию подсказок для достижения наилучших результатов, подобрав язык и стиль вопросов для Gemini 1.5 Pro. В этой подсказке использовалась цепочка мыслей для запроса:
- Цель и контекст видео.
- Индивидуальные аудиоописания с использованием анализа и рекомендаций, специфичных для видео.
- Переформатированные временные метки и описания для предсказуемого и единообразного формата.
Почему мы выбрали ViddyScribe
Мы выбрали ViddyScribe, потому что это элегантное решение реальной проблемы пользователя.
Хотя они обнаружили, что на рынке существуют другие приложения с аудиодескрипцией, они сочли, что потребности людей с нарушениями слуха и зрения не до конца поняты. Разработчики работали с реальными людьми с такими нарушениями, чтобы точно определить, что им нужно от приложения с аудиодескрипцией.
Опыт людей с ограниченными возможностями может быть очень разным, и иногда у них могут быть противоречивые потребности. Кроме того, аудиодескрипции могут сделать эти видео доступными для людей с нейроотличиями и тех, кто предпочитает читать расшифровку вместо просмотра видео.
Мы с нетерпением ждем, как разработчики продолжат совершенствовать ViddyScribe, расширяя аудиторию и возможности в будущем.
Продолжайте разработку с помощью встроенных API ИИ
ViddyScribe — это лишь одно из многих замечательных приложений, созданных вами с помощью Gemini.
Мы разрабатываем встроенные функции искусственного интеллекта : API веб-платформ и функции браузера, предназначенные для интеграции моделей искусственного интеллекта, включая большие языковые модели (LLM), непосредственно в браузер. В их число входит Gemini Nano , самая эффективная версия семейства LLM Gemini, предназначенная для локальной работы на большинстве современных настольных компьютеров и ноутбуков.
Откройте для себя доступные API , чтобы приступить к созданию мощных веб-сайтов, веб-приложений и расширений Chrome.
Поделитесь своими разработками с нами на @ChromiumDev или поделитесь ими с Chrome for Developers на LinkedIn .