過去一年來,網頁 AI 發生了許多變化。如果你錯過了 2024 年 I/O 大會,我們在會中介紹了適用於下一代網頁應用程式的新模型、工具和 API。
Web AI 是一組技術和方法,可在裝置的 CPU 或 GPU 上執行的網路瀏覽器中,使用用戶端機器學習 (ML) 模型。這類應用程式可使用 JavaScript 和其他網路技術 (例如 WebAssembly 和 WebGPU) 建構。這與伺服器端 AI 或「雲端 AI」不同,後者是在伺服器上執行模型,並透過 API 存取。
在這次演講中,我們分享了:
- 如何在瀏覽器中執行新的大型語言模型 (LLM),以及在用戶端執行模型帶來的影響;
- 一窺 Visual Blocks 的未來,加快原型設計速度;
- 以及網頁開發人員如何在 Chrome 中使用 JavaScript,大規模運用 Web AI。
瀏覽器中的 LLM
Gemma Web 是 Google 全新推出的開放式模型,可透過使用者裝置上的瀏覽器執行,並採用與 Gemini 相同的研究成果和技術。
與在雲端伺服器上執行推論作業相比,在裝置上使用 LLM 可大幅節省成本,同時提升使用者隱私權並縮短延遲時間。瀏覽器中的生成式 AI 仍處於早期階段,但隨著硬體持續改良 (CPU 和 GPU RAM 提高),我們預期會有更多模型推出。
企業可以重新想像網頁的用途,特別是針對特定工作,因為較小的 LLM (20 億到 80 億個參數) 的權重可以調整,以便在消費型硬體上執行。
Gemma 2B 可在 Kaggle Models 下載,格式與 Web LLM 推論 API 相容。其他支援的架構包括 Microsoft Phi-2、Falcon RW 1B 和 Stable LM 3B,您可以使用我們的轉換器程式庫,將這些架構轉換為執行階段可用的格式。
使用視覺化積木更快建構原型
我們與 Hugging Face 合作,為 Visual Blocks 建立 16 個全新的自訂節點。這項功能可將 Transformers.js 和更廣泛的 Hugging Face 生態系統帶入 Visual Blocks。
其中八個新節點完全在用戶端執行,並使用 Web AI,包括:
此外,Hugging Face 也提供七項伺服器端 ML 工作,讓您透過 Visual Blocks 中的 API 執行數千個模型。歡迎查看 Hugging Face Visual Blocks 集合。
使用 Chrome 大規模運用 JavaScript 進行網頁 AI 運算
在先前的執行個體中 (例如 Gemma),模型會在網頁本身載入及執行。Chrome 正在開發內建的裝置端 AI,您可以使用標準化的工作專用 JavaScript API 存取模型。
此外,Chrome 也更新了 WebGPU,支援 16 位元浮點值。
WebAssembly 有一項新的提案「Memory64」,可支援 64 位元記憶體索引,讓您載入比以往更大的 AI 模型。
使用 Headless Chrome 開始測試 Web AI 模型
您現在可以使用無頭 Chrome 測試用戶端 AI (或任何需要 WebGL 或 WebGPU 支援的應用程式),同時利用伺服器端 GPU 加速,例如 NVIDIA T4 或 P100。瞭解詳情:
請記得在分享創作內容時加上 #WebAI,讓更多社群成員看到你的作品。在 X、LinkedIn 或偏好的社群媒體平台上分享您的發現和建議。