Tổng kết I/O Web AI 2024: Các mô hình, công cụ và API mới cho ứng dụng web tiếp theo

Alexandra Klepper
Alexandra Klepper

Đã có nhiều thay đổi trong AI trên web trong năm qua. Nếu bỏ lỡ sự kiện I/O 2024, bạn có thể xem lại buổi nói chuyện của chúng tôi về các mô hình, công cụ và API mới cho ứng dụng web tiếp theo của bạn.

Web AI là một tập hợp các công nghệ và kỹ thuật sử dụng các mô hình học máy (ML), phía máy khách trong một trình duyệt web chạy trên CPU hoặc GPU của thiết bị. Bạn có thể tạo ứng dụng này bằng JavaScript và các công nghệ web khác, chẳng hạn như WebAssembly và WebGPU. Điều này khác với AI phía máy chủ hoặc "AI trên đám mây", trong đó mô hình thực thi trên một máy chủ và được truy cập bằng API.

Trong buổi nói chuyện này, chúng tôi đã chia sẻ:

  • Cách chạy các mô hình ngôn ngữ lớn (LLM) mới của chúng tôi trong trình duyệt và tác động của việc chạy các mô hình phía máy khách;
  • Xem trước tương lai của Khối hình ảnh để tạo mẫu nhanh hơn;
  • Và cách nhà phát triển web có thể sử dụng JavaScript trong Chrome để làm việc với AI trên web ở quy mô lớn.

Mô hình ngôn ngữ lớn trong trình duyệt

Gemma Web là một mô hình nguồn mở mới của Google, có thể chạy trong trình duyệt trên thiết bị của người dùng, được xây dựng dựa trên cùng một nghiên cứu và công nghệ mà chúng tôi đã sử dụng để tạo ra Gemini.

Bằng cách đưa LLM vào thiết bị, bạn có thể tiết kiệm chi phí đáng kể so với việc chạy trên máy chủ đám mây để suy luận, đồng thời tăng cường quyền riêng tư của người dùng và giảm độ trễ. AI tạo sinh trong trình duyệt vẫn đang ở giai đoạn đầu, nhưng khi phần cứng tiếp tục cải thiện (với RAM CPU và GPU cao hơn), chúng tôi hy vọng sẽ có thêm nhiều mô hình.

Các doanh nghiệp có thể hình dung lại những việc bạn có thể làm trên một trang web, đặc biệt là đối với các trường hợp sử dụng cụ thể theo nhiệm vụ, trong đó trọng số của các LLM nhỏ hơn (từ 2 đến 8 tỷ tham số) có thể được điều chỉnh để chạy trên phần cứng tiêu dùng.

Bạn có thể tải Gemma 2B xuống trên Kaggle Models ở định dạng tương thích với Web LLM inference API của chúng tôi. Các cấu trúc được hỗ trợ khác bao gồm Microsoft Phi-2, Falcon RW 1BStable LM 3B. Bạn có thể chuyển đổi các cấu trúc này sang định dạng mà thời gian chạy có thể sử dụng bằng thư viện trình chuyển đổi của chúng tôi.

Tạo mẫu nhanh hơn bằng Khối trực quan

Với Khối trực quan, bạn có thể chạy tính năng ước tính độ sâu trong ứng dụng mà không cần mã.

Chúng tôi đang cộng tác với Hugging Face, đơn vị đã tạo ra 16 nút tuỳ chỉnh hoàn toàn mới cho Khối hình ảnh. Điều này mang Transformers.js và hệ sinh thái Hugging Face rộng lớn hơn đến với Khối trực quan.

8 trong số các nút mới này chạy hoàn toàn ở phía máy khách, bằng AI trên web, bao gồm:

Ngoài ra, có 7 tác vụ ML phía máy chủ từ Hugging Face cho phép bạn chạy hàng nghìn mô hình bằng API trong Khối trực quan. Hãy xem bộ sưu tập Khối hình ảnh của Hugging Face.

Sử dụng JavaScript cho AI trên web ở quy mô lớn bằng Chrome

Trong các trường hợp trước đây, chẳng hạn như với Gemma, mô hình này được tải và chạy trong chính trang web. Chrome đang phát triển AI tích hợp sẵn trên thiết bị. Nhờ đó, bạn có thể truy cập vào các mô hình bằng API JavaScript tiêu chuẩn dành riêng cho từng tác vụ.

Chưa hết. Chrome cũng đã cập nhật WebGPU để hỗ trợ các giá trị dấu phẩy động 16 bit.

WebAssembly có một đề xuất mới, Memory64, để hỗ trợ chỉ mục bộ nhớ 64 bit, cho phép bạn tải các mô hình AI lớn hơn trước.

Bắt đầu kiểm thử các mô hình AI trên web bằng Chrome không giao diện

Giờ đây, bạn có thể kiểm thử AI phía máy khách (hoặc bất kỳ ứng dụng nào cần hỗ trợ WebGL hoặc WebGPU) bằng Headless Chrome, đồng thời tận dụng GPU phía máy chủ để tăng tốc, chẳng hạn như NVIDIA T4 hoặc P100 Tìm hiểu thêm:

Hãy nhớ thêm thẻ #WebAI khi chia sẻ nội dung bạn tạo để cộng đồng rộng lớn hơn có thể xem tác phẩm của bạn. Chia sẻ những phát hiện và đề xuất của bạn trên X, LinkedIn hoặc nền tảng mạng xã hội mà bạn muốn.