觀看 2025 年 Google I/O 大會的 AI 相關講座

Alexandra Klepper
Alexandra Klepper

發布日期:2025 年 5 月 22 日

AI 正在改變網頁開發人員建構網站和網頁應用程式的方式。在 2025 年 Google I/O 大會上,我們分享了過去一年來的研發成果,展示合作夥伴如何在網路上運用 AI 技術,並宣布推出全新的內建 AI API

錯過活動了嗎?好消息!現在可以隨選觀看演講影片了!

Chrome 內建 Gemini Nano,提供實用 AI 功能

我們的核心使命是為所有開發人員和使用者打造更智慧的 Chrome 和網路。在這場演講中,Thomas Steiner 分享了內建 AI 的最新消息、實際應用情境,以及我們對未來的展望。

內建 AI 會在瀏覽器中執行用戶端模型,這有幾項優點:

  • 私密:敏感的使用者資料會保留在裝置上,絕不會離開瀏覽器。
  • 離線:即使沒有網路連線,應用程式也能存取 AI 功能。
  • 效能優異:這些 API 採用硬體加速技術,效能極佳。

查看各項內建 AI API 的程式碼範例、瞭解最新狀態,以及查看採用這項技術的公司。

多模態 API

我們正在開發全新的多模態 API。也就是說,你可以詢問 Gemini Nano 影像內容中的「所見」或音訊內容中的「所聞」。舉例來說,在部落格平台中,針對上傳的圖片取得替代文字建議,供使用者調整和修改。你也可以要求 Gemini Nano 撰寫 Podcast 的說明或轉錄稿。

混合式 AI

開發人員在用戶端 AI 方面面臨的一項挑戰是,並非所有平台和瀏覽器都符合在裝置上執行模型所需的硬體規格。Gemini 和 Firebase 合作建構了 Firebase Web SDK,因此在無法進行用戶端實作時,您可以改用伺服器上的 Gemini Nano。

與您合作

很高興能與眾多開發人員合作,共同打造內建的 AI API。沒有您的支持,我們就無法達成這些目標。

你的工作還沒結束。歡迎繼續提供意見,測試新的內建 API,我們會持續改善。您甚至可以加入 W3C 的 Web Machine Learning Community Group,協助這些 API 標準化。

Gemini 版 Chrome 擴充功能:瀏覽器擴充功能的未來

過去兩年,AI 擴充功能的數量增加了一倍。事實上,從 Chrome 線上應用程式商店安裝的所有擴充功能中,有 10% 使用 AI。在本演講中,Sebastian Benz 提供了實用範例,說明 Chrome 擴充功能和 Gemini 的組合為何如此強大。

例如,您可以運用 Chrome 新推出的提示 API,從用戶端網站擷取及處理資料,讓瀏覽器更加實用。

我們將展示 Chrome 擴充功能中 Chrome 提示 API 的全新多模態功能,如何讓使用者更輕鬆存取音訊和圖片。

Google DeepMind 的 Project Mariner 如何運用 Chrome 擴充功能和最新的 Gemini Cloud API,建構功能齊全的瀏覽器代理程式,帶您一窺瀏覽的未來。

瞭解如何運用雲端或 瀏覽器中的 Gemini,在 Chrome 擴充功能中打造全新瀏覽體驗,讓瀏覽器更加實用。

網頁 AI 應用實例和策略

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

廣田百合子和 Swetha Gopalakrishnan 舉出實際案例,說明企業如何運用網路上的 AI 技術改善業務和使用者體驗。無論解決方案採用用戶端模型、伺服器端模型或混合式模型,重要的是您能立即為使用者提供令人期待的新功能。

BILIBILI 推出彈幕留言新功能,讓影片串流更具吸引力。這類廣告會在影片中顯示即時使用者留言,並在演講者後方呈現。為此,他們運用了圖像分割技術,這是一項廣為人知的機器學習概念。因此工作階段持續時間增加了 30%!Tokopedia 使用臉部偵測模型評估上傳相片的品質,減少賣家驗證程序的阻力。因此,他們手動核准的次數減少了近 70%。

Vision Nanny 是專為腦部視覺障礙 (CVI) 兒童設計的網路平台,提供 AI 輔助的視覺刺激活動。他們使用多個 MediaPipe 程式庫,包括手部地標偵測模型,可找出圖片、影片或即時影像中的手部關鍵點。一項有 50 名兒童參與的試驗顯示,Vision Nanny 的回覆速度比手動視覺刺激活動快 5 倍。治療師表示,移除手動設定後,平均每節療程可省下三小時。

Google Meet 採用多項 AI 輔助功能,可改善光線、減少模糊,讓影片更清晰。最大的挑戰在於這些功能必須即時運作。這時WebAssembly (Wasm) 就派上用場了,可充分發揮電腦 CPU 的效能,並即時處理影片。

以上只是幾個實際案例,說明 AI 如何在網路上發揮作用。其他幾家公司也試用內建的 AI API,其中部分公司在個案研究中分享了相關成果。

用戶端網頁 AI 代理程式,打造更智慧的未來使用者體驗

Jason Mayes 介紹了網際網路的未來:Web AI 代理程式。網路的未來將是代理程式的天下,AI 功能會直接整合到瀏覽器,代表您執行實用工作,超越大型語言模型 (LLM) 的功能。

採用用戶端方法可加強隱私權防護、縮短延遲時間,並大幅節省費用。代理程式可讓您升級現有網站、為使用者自主執行工作、動態選取及使用公開工具 (可能處於迴圈中),讓代理程式完成可能複雜或多步驟的工作。

服務專員可以:

  • 規劃及劃分子工作,透過多步驟規劃處理更複雜的問題,將工作分解為合理的完成步驟。
  • 選取最佳工具,無論是函式、API 用法或資料存放區存取權,都能擴增語言模型的基本知識,然後對外部世界執行動作。
  • 保留以脈絡為依據的記憶,根據代理或外部工具先前的輸出內容。短期記憶體的作用類似於 FIFO 緩衝區,可儲存模型情境視窗大小上限的情境記錄,而長期記憶體則可使用向量資料庫儲存資訊,以便從先前的對話工作階段或其他資料來源中視需要擷取資訊。

網頁 AI 代理程式的設計宗旨,是整合 JavaScript 中的現有網頁技術。最終,我們必須持續加速硬體開發,才能在瀏覽器中以最佳狀態執行模型。展望未來,WebNN 等技術將在 CPU、GPU 和 NPU 之間,扮演最佳化模型執行的重要角色。隨著 LLM 越來越小,且持續進步,未來只會更加強大。

建議採用混合式做法,結合裝置端處理和策略性雲端呼叫,立即在瀏覽器中打造智慧、回應迅速的個人化使用者體驗。隨著裝置執行大型語言模型的能力越來越強,您很快就能從投資 Web AI 方法中獲得回報。

重溫 2025 年 Google I/O 大會內容

我們已發布 2025 年 Google I/O 大會的所有演講,並為網頁開發人員提供專屬播放清單。如要觀看更多內容,請前往 io.google/2025