影片無障礙功能獲得 Gemini API 開發人員競賽網頁獎

Alexandra Klepper
Alexandra Klepper

發布日期:2024 年 11 月 21 日

Gemini API 開發人員競賽中,我們收到許多優秀的提交作品,並選出最佳網頁應用程式:ViddyScribe

ViddyScribe 就是 Gemini 的最佳範例,它可為任何影片產生專為視障人士設計的音訊說明,讓使用者在 YouTube 上 (甚至其他平台) 更容易觀看影片。

功能與 Gemini 功能

ViddyScribe 打造了以使用者為優先的應用程式。雖然目前已有許多解決方案可產生轉錄稿和音訊說明,但 ViddyScribe 的優先順序是為特定目標對象 (視障人士) 提供快速結果和良好使用者體驗。

為這類觀眾手動標註影片,提供額外詳細資訊,耗費的時間太長,因此經常被忽略。ViddyScribe 使用 Gemini 建立自訂解決方案,不僅可在文字檔中新增一些任意影格說明,還能擴大規模。

ViddyScribe 有兩個樣本和一個上傳空間。
ViddyScribe 應用程式可讓使用者使用示範影片,或上傳自己的影片 (100 MB 和 2 分鐘長度),以便透過 Gemini 產生音訊說明。

ViddyScribe 使用提示工程技術,為 Gemini 1.5 Pro 挑選最佳問題語言和風格,以便取得最佳結果。這個提示使用思維鏈提示來要求:

  • 影片的目的和背景。
  • 根據影片的分析和規範,提供客製化音訊描述。
  • 重新格式化時間戳記和說明,以便提供可預測且一致的格式。

選擇 ViddyScribe 的原因

我們選擇 ViddyScribe,是因為它是解決實際使用者問題的簡單方法。

雖然他們發現市面上有其他應用程式提供音訊說明,但他們認為這些應用程式並未充分瞭解聾人和視障人士的需求。這些開發人員與實際身心障礙者合作,找出他們在音訊描述應用程式中需要的確切需求。

不同身心障礙人士的使用體驗可能大相逕庭,有時他們的需求也可能互相衝突。此外,音訊描述功能還能讓神經多樣性人士和其他偏好閱讀轉錄稿而非觀看影片的使用者,也能觀看這些影片。

我們很期待看到開發人員如何持續改善 ViddyScribe,在日後擴大觀眾群和功能。

繼續使用內建 AI API 進行建構

ViddyScribe 只是您使用 Gemini 建構的眾多優異應用程式之一。

我們正在開發內建 AI:網頁平台 API 和瀏覽器功能,旨在將 AI 模型 (包括大型語言模型 (LLM)) 直接整合至瀏覽器。其中包括 Gemini Nano,這是 Gemini 系列 LLM 中最有效率的版本,可在大多數新型桌上型電腦和筆記型電腦上執行。

探索可用的 API,開始建構功能強大的網站、網頁應用程式和 Chrome 擴充功能。

歡迎在 @ChromiumDev 與我們分享您建構的內容,或是在 LinkedIn 上的 Chrome 開發人員版分享。