视频无障碍功能荣获 Gemini API 开发者大赛 Web 类奖项

Alexandra Klepper
Alexandra Klepper

发布时间:2024 年 11 月 21 日

在收到众多令人惊叹的 Gemini API 开发者大赛提交内容后,我们选出了最佳 Web 应用的获胜者:ViddyScribe

ViddyScribe 充分展示了 Gemini 如何通过生成适合视障人士的任何视频的音频说明,帮助 YouTube(甚至其他平台)上的视频更易于访问。

功能和 Gemini 功能

ViddyScribe 打造了一款以用户为中心设计的应用。虽然目前已有多种解决方案可用于生成转写内容和音频描述,但 ViddyScribe 优先考虑为特定受众群体(即视障人士)创建既能快速生成结果又能提供出色用户体验的输出。

手动为视频添加注释以向此受众群体提供更多详细信息需要花费太多时间,因此经常被忽略。ViddyScribe 使用 Gemini 帮助创建了一种自定义解决方案,该解决方案不仅能将一些任意的帧描述添加到文本文件中,还能进行扩展。

ViddyScribe 有两个示例和一个上传空间。
借助 ViddyScribe 应用,用户可以使用示例视频或上传自己的视频(大小不超过 100MB,时长不超过 2 分钟),通过 Gemini 生成音频描述。

ViddyScribe 使用了提示工程,为 Gemini 1.5 Pro 精心设计了问题语言和风格,以获得最佳结果。此提示使用思维链提示来请求:

  • 视频的目的和背景信息。
  • 使用针对特定视频的分析和指南量身定制的语音描述。
  • 重新设置了时间戳和说明的格式,以实现可预测且一致的格式。

我们为何选择 ViddyScribe

我们之所以选择 ViddyScribe,是因为它为实际用户问题提供了一个优雅的解决方案。

虽然他们发现市面上还有其他应用提供音频描述,但他们认为,聋人和视障人士的需求并未得到充分理解。这些开发者与有这些残障的真人合作,以确定他们对音频描述应用的具体需求。

残障人士的体验可能大相径庭,有时他们可能存在相互冲突的需求。此外,音频描述还可以让神经多样性人群和其他喜欢阅读文字稿而非观看视频的人群也能观看这些视频。

我们很高兴看到开发者不断增强 ViddyScribe,并在未来扩大受众群体和功能。

继续使用内置 AI API 进行构建

ViddyScribe 只是您使用 Gemini 构建的众多出色应用之一。

我们正在开发内置 AI:旨在将 AI 模型(包括大语言模型 [LLM])直接集成到浏览器中的 Web 平台 API 和浏览器功能。其中包括 Gemini Nano,它是 Gemini 系列 LLM 中最有效的版本,旨在在大多数现代台式机和笔记本电脑上本地运行。

探索可用的 API,开始构建功能强大的网站、Web 应用和 Chrome 扩展程序。

欢迎通过 @ChromiumDev 与我们分享您的作品,也可以通过 LinkedIn 上的 Chrome for Developers 与我们分享。