视频无障碍功能荣获 Gemini API 开发者大赛 Web 类奖项

Alexandra Klepper
Alexandra Klepper

发布时间:2024 年 11 月 21 日

Gemini API 开发者大赛中收到众多出色的参赛作品后,我们已选出最佳 Web 应用:ViddyScribe

ViddyScribe 就是一个很好的例子,它展示了 Gemini 如何通过为任何视频生成音频描述(专门针对视障人士),帮助用户在 YouTube 上和其他平台上更轻松地观看视频。

功能和 Gemini 功能

ViddyScribe 打造了一款以用户为中心的应用。虽然已经有许多用于生成转写内容和音频描述的解决方案,但 ViddyScribe 的首要任务是创建输出内容,为特定观众(视障人士)提供快速结果和愉快的用户体验。

手动为此类观众添加视频注释需要花费太多时间,因此往往会被忽略。ViddyScribe 使用 Gemini 创建了一种自定义解决方案,该解决方案不仅可以向文本文件添加一些任意帧描述,还可以扩展到其他用途。

ViddyScribe 有两个示例和一个上传空间。
借助 ViddyScribe 应用,用户可以使用示例视频或上传自己的视频(大小不超过 100MB,时长不超过 2 分钟),以便通过 Gemini 生成音频描述。

ViddyScribe 使用提示工程来为 Gemini 1.5 Pro 挑选问题语言和风格,以便获得最佳结果。此提示使用思维链提示来请求:

  • 视频的用途和背景信息。
  • 使用视频专用分析和指南量身定制的音频描述。
  • 重新设置了时间戳和说明的格式,以采用可预测且一致的格式。

为何选择 ViddyScribe

我们之所以选择 ViddyScribe,是因为它能巧妙地解决用户的实际问题。

虽然他们发现市场上还有其他应用提供音频描述,但他们认为这些应用并未充分了解聋人和视障人士的需求。这些开发者与真正有这些残障的用户合作,以确定他们在音频描述应用中究竟需要什么。

残障人士的体验可能差异很大,有时他们可能有相互冲突的需求。此外,有听觉障碍的用户和更喜欢阅读转写内容而非观看视频的用户也可以通过音频描述来观看这些视频。

我们期待看到开发者如何继续改进 ViddyScribe,在未来扩大其覆盖的观众群和功能。

继续使用内置 AI API 进行构建

ViddyScribe 只是您使用 Gemini 构建的众多出色应用之一。

我们正在开发内置 AI:Web 平台 API 和浏览器功能,旨在将 AI 模型(包括大语言模型 [LLM])直接集成到浏览器中。其中包括 Gemini Nano,它是 Gemini 系列 LLM 的最高效版本,专为在大多数新型桌面设备和笔记本电脑上本地运行而设计。

探索可用的 API,开始构建强大的网站、Web 应用和 Chrome 扩展程序。

欢迎通过 @ChromiumDev 与我们分享您构建的内容,或在 LinkedIn 上与 Chrome for Developers 团队分享