Google 會運用 AI 技術將內容翻譯成你偏好的語言，但可能會出錯。

觀看 2025 年 Google I/O 大會的 AI 相關講座

Alexandra Klepper

發布日期：2025 年 5 月 22 日

AI 正在改變網頁開發人員建構網站和網頁應用程式的方式。在 2025 年 Google I/O 大會上，我們分享了過去一年來的研發成果，展示合作夥伴如何在網路上運用 AI 技術，並宣布推出全新的內建 AI API。

錯過活動了嗎？好消息！即日起，你可以隨選隨看相關內容。

Chrome 內建 Gemini Nano，提供實用 AI 功能

Thomas Steiner

我們的核心使命是為所有開發人員和使用者，打造更智慧的 Chrome 和網路。在這場演講中，Thomas Steiner 分享了內建 AI 的最新消息、實際應用情境，以及我們對未來的展望。

內建 AI 會在瀏覽器中執行用戶端模型，有以下幾項優點：

私密：敏感的使用者資料會保留在裝置上，完全不必離開瀏覽器。
離線：即使沒有網路連線，應用程式也能存取 AI 功能。
效能優異：這些 API 採用硬體加速功能，因此效能極佳。

查看各項內建 AI API 的程式碼範例、瞭解最新狀態，以及查看導入這項技術的公司。

多模態 API

我們正在開發全新的多模態 API，也就是說，你可以詢問模型在圖片或音訊中「看到」或「聽到」的內容。舉例來說，在部落格平台中，使用者上傳圖片後，系統會提供替代文字建議，使用者可以再加以調整。你也可以要求 Gemini Nano 撰寫 Podcast 的說明或轉錄稿。

混合式 AI

開發人員在使用用戶端 AI 時，面臨的一項挑戰是並非所有平台和瀏覽器都符合硬體需求，因此無法在裝置上執行模型。Gemini 和 Firebase 合作建構了 Firebase Web SDK，因此在無法進行用戶端實作時，您可以改用伺服器上的 Gemini Nano。

與您合作

很高興能與眾多開發人員合作，共同打造內建的 AI API。沒有您的支持，我們就無法完成這些工作。

搶先預覽計畫：超過 16,000 名開發人員已加入EPP，測試新 API、發掘新用途，並提供意見回饋，協助我們打造更優質的網頁專用 AI。
黑客松：我們舉辦了兩場黑客松，您們打造出許多令人驚豔的網站和擴充功能。

你的工作還沒結束。歡迎繼續提供意見，測試新的內建 API，我們會持續改善。您甚至可以加入 W3C 的 Web 機器學習社群群組，協助這些 API 標準化。

Gemini 版 Chrome 擴充功能：瀏覽器擴充功能的未來

Sebastian Benz

過去兩年，AI 輔助擴充功能的數量增加了一倍。事實上，從 Chrome 線上應用程式商店安裝的所有擴充功能中，有 10% 使用 AI。在這次演講中，Sebastian Benz 提供了實用範例，說明 Chrome 擴充功能和 Gemini 結合後為何能發揮如此強大的效用。

例如，您可以透過 Chrome 新推出的提示 API，從用戶端網站擷取及處理資料，讓瀏覽器更加實用。

我們將展示 Chrome 擴充功能中 Chrome 提示 API 的全新多模態功能，如何讓使用者更輕鬆地存取音訊和圖片。

我們將說明 Google DeepMind 的 Project Mariner 如何運用 Chrome 擴充功能和最新的 Gemini Cloud API，建構功能齊全的瀏覽器代理程式，一窺瀏覽的未來。

瞭解如何透過雲端或瀏覽器中的 Gemini，在 Chrome 擴充功能中打造全新瀏覽體驗，讓瀏覽器更加實用。

網頁 AI 應用實例和策略

Yuriko Hirota

Swetha Gopalakrishnan

廣田百合子和 Swetha Gopalakrishnan 舉出實際案例，說明企業如何運用網路上的 AI 技術改善業務和使用者體驗。無論解決方案採用用戶端模型、伺服器端模型或混合式模型，重要的是您現在就能為使用者提供令人期待的新功能。

BILIBILI 推出彈幕留言新功能，讓影片串流更具吸引力。這類廣告會在影片中顯示使用者即時留言，並在演講者後方呈現。為此，他們運用了圖像分割技術，這是一項廣為人知的機器學習概念。因此工作階段持續時間增加了 30%！Tokopedia 使用臉部偵測模型評估上傳相片的品質，減少賣家驗證程序的阻力。因此，他們手動核准的次數減少了近 70%。

Vision Nanny 是專為腦部視覺障礙 (CVI) 兒童設計的網路平台，提供 AI 輔助的視覺刺激活動。這些模型使用多個 MediaPipe 程式庫，包括手部地標偵測模型，可找出圖片、影片或即時影像中的手部關鍵點。一項針對 50 名兒童進行的試驗顯示，Vision Nanny 的回應速度比手動視覺刺激活動快 5 倍。治療師表示，移除手動設定後，平均每節療程可省下三小時。

Google Meet 採用多項 AI 輔助功能，可改善光線、減少模糊，讓影片更清晰。最大的挑戰在於這些功能必須即時運作。這時WebAssembly (Wasm) 就派上用場了，可充分發揮電腦 CPU 的效能，並即時處理影片。

以上只是幾個實際案例，說明 AI 如何在網路上發揮作用。其他幾家公司也試用內建的 AI API，其中有些公司在案例研究中分享了相關成果。

運用用戶端網頁 AI 代理，打造更智慧的未來使用者體驗

Jason Mayes

Jason Mayes 介紹了網路的未來：網路 AI 代理。網路的未來將是代理式，直接在瀏覽器中提供 AI 功能，代表您執行實用工作，超越大型語言模型 (LLM) 的功能。

採用用戶端方法可加強隱私權防護、縮短延遲時間，並大幅節省費用。代理可讓您升級現有網站，自主為使用者執行工作、動態選取及使用公開工具 (可能以迴圈形式)，讓代理完成可能複雜或多步驟的工作。

服務專員可以：

規劃及劃分子工作，透過多步驟規劃將工作分解為邏輯步驟，以處理更複雜的問題。
選取最佳工具，無論是函式、API 用法或資料存放區存取權，都能擴增語言模型的基本知識，然後對外部世界執行動作。
保留以脈絡為依據的記憶，根據代理或外部工具先前的輸出內容。短期記憶體的作用類似於脈絡記錄的先進先出緩衝區，最多可達模型的脈絡視窗大小；長期記憶體則可使用向量資料庫儲存資訊，以便從先前的對話工作階段或其他資料來源中視需要擷取資訊。

網頁 AI 代理程式的設計宗旨，是整合 JavaScript 中的現有網頁技術。最終，我們必須持續加速硬體開發，才能在瀏覽器中以最佳狀態執行模型。展望未來，WebNN 等技術將在 CPU、GPU 和 NPU 之間，扮演最佳化模型執行的重要角色。隨著 LLM 越來越小，且持續進步，未來只會更加強大。

建議採用混合式做法，結合裝置端處理和策略性雲端呼叫，立即在瀏覽器中打造智慧、回應迅速且個人化的使用者體驗。隨著裝置執行 LLM 的能力越來越強大，您投資 Web AI 方法的回報很快就會實現。

回顧 2025 年 Google I/O 大會

我們已發布 2025 年 Google I/O 大會的所有演講，並為網頁開發人員提供專屬播放清單。如要觀看更多內容，請前往 io.google/2025。

觀看 2025 年 Google I/O 大會的 AI 相關講座 透過集合功能整理內容 你可以依據偏好儲存及分類內容。