發布日期:2024 年 11 月 21 日
經過 Gemini API 開發人員競賽的激烈角逐,我們選出了最佳網頁應用程式得主:ViddyScribe。
ViddyScribe 示範了 Gemini 如何為 YouTube 影片生成音訊說明,協助視障人士觀看影片,未來或許還能應用在其他平台。
功能和 Gemini 功能
ViddyScribe 打造的應用程式以使用者為優先考量,雖然目前已有許多解決方案可生成轉錄稿和語音說明,但 ViddyScribe 優先為特定對象 (視障人士) 打造輸出內容,兼顧快速生成結果和良好的使用者體驗。
手動為這類觀眾註解影片,提供額外詳細資料,需要花費太多時間,因此經常遭到忽略。ViddyScribe 運用 Gemini 建立自訂解決方案,不僅能將任意影格說明新增至文字檔,還可進一步擴充。

ViddyScribe 運用提示工程,為 Gemini 1.5 Pro 調整問題的語言和風格,以取得最佳結果。這項提示使用思維鏈提示,要求:
- 影片的用途和背景資訊。
- 根據影片專屬分析和規範製作的客製化語音說明。
- 重新格式化時間戳記和說明,確保格式一致且可預測。
我們選擇 ViddyScribe 的原因
我們選擇 ViddyScribe,是因為這項解決方案能優雅地解決使用者的實際問題。
雖然市面上已有提供語音說明的應用程式,但他們認為這些應用程式並未完全瞭解聽障和視障人士的需求。這些開發人員與身心障礙者合作,瞭解他們對語音說明應用程式的需求。
身心障礙者的體驗可能大不相同,有時他們的需求甚至會互相衝突。此外,語音說明也能讓神經多樣性者和其他偏好閱讀轉錄稿而非觀看影片的使用者,輕鬆收看這些影片。
我們很期待看到開發人員持續強化 ViddyScribe,在未來擴大觀眾群並提升功能。
繼續使用內建 AI API 建構應用程式
ViddyScribe 只是您使用 Gemini 建構的眾多出色應用程式之一。
我們正在開發內建 AI:網頁平台 API 和瀏覽器功能,可將 AI 模型 (包括大型語言模型 (LLM)) 直接整合到瀏覽器中。包括Gemini Nano,這是 Gemini 系列大型語言模型中最有效率的版本,可在大多數現代桌上型電腦和筆記型電腦上本機執行。
探索可用 API,開始建構功能強大的網站、網頁應用程式和 Chrome 擴充功能。
歡迎在 @ChromiumDev 分享您建構的內容,或在 LinkedIn 上的 Chrome for Developers 分享。