2024 年 I/O 大会 Web AI 总结:为您的下一个 Web 应用打造的新模型、工具和 API

Alexandra Klepper
Alexandra Klepper

过去一年,Web AI 领域发生了很大变化。如果您错过了,我们曾在 2024 年 I/O 大会上就如何利用全新模型、工具和 API 打造下一代 Web 应用发表过演讲。

Web AI 是一组技术,用于在设备 CPU 或 GPU 上运行的网络浏览器中,在客户端使用机器学习 (ML) 模型。这可以使用 JavaScript 和其他 Web 技术(例如 WebAssembly 和 WebGPU)来构建。这与服务器端 AI 或“Cloud AI”不同,后者在服务器上执行模型,并通过 API 进行访问。

在本次讲座中,我们分享了以下内容:

  • 如何在浏览器中运行我们新的大语言模型 (LLM),以及在客户端运行模型的影响;
  • 了解 Visual Blocks 的未来,更快地制作原型;
  • 以及 Web 开发者如何在 Chrome 中使用 JavaScript 来大规模使用 Web AI。

在浏览器中运行 LLM

Gemma Web 是 Google 推出的一款新的开放模型,可在用户设备上的浏览器中运行,采用了我们打造 Gemini 时所用的技术和研究成果。

与在云服务器上运行 LLM 进行推理相比,在设备端运行 LLM 有望大幅节省成本,同时还能增强用户隐私保护并缩短延迟时间。浏览器中的生成式 AI 仍处于早期阶段,但随着硬件的不断改进(CPU 和 GPU RAM 越来越高),我们预计会有更多模型可供使用。

企业可以重新构想网页的用途,尤其是在特定任务用例中,较小 LLM(20 亿到 80 亿个参数)的权重可以调整为在消费类硬件上运行。

Gemma 2B 可在 Kaggle Models 上下载,并且采用与我们的 Web LLM Inference API 兼容的格式。其他受支持的架构包括 Microsoft Phi-2Falcon RW 1BStable LM 3B,您可以使用我们的转换器库将其转换为运行时可用的格式。

使用 Visual Blocks 更快地构建原型

借助 Visual Blocks,您无需编写任何代码即可在客户端中运行深度估计。

我们正与 Hugging Face 合作,他们为 Visual Blocks 创建了 16 个全新的自定义节点。这会将 Transformers.js 和更广阔的 Hugging Face 生态系统引入 Visual Blocks。

这些全新节点中,有 8 个通过 Web AI 完全在客户端运行,包括:

此外,Hugging Face 还提供了 7 个服务端机器学习任务,让您可以在 Visual Blocks 中通过 API 运行数千个模型。不妨查看 Hugging Face Visual Blocks 节点集

在 Chrome 中大规模使用 JavaScript 进行 Web AI 开发

在之前的实例中(例如 Gemma),模型是在网页本身内加载和运行的。Chrome 正在开发内置的设备端 AI,您可以通过标准化的任务专用 JavaScript API 访问模型。

不仅如此,Chrome 还更新了 WebGPU,以支持 16 位浮点值。

WebAssembly 推出了一项新提案 Memory64,用于支持 64 位内存索引,这样您就可以加载比以前更大的 AI 模型。

开始使用无头 Chrome 测试 Web AI 模型

您现在可以使用无头 Chrome 测试客户端 AI(或任何需要 WebGL 或 WebGPU 支持的应用),同时利用服务器端 GPU(例如 NVIDIA T4 或 P100)进行加速。了解详情:

请注意,分享您的作品时,请添加 #WebAI,以便更广泛的社区能够看到您的作品。欢迎在 X、LinkedIn 或您偏好的社交平台上分享您的发现和建议。