W ciągu ostatniego roku wiele się zmieniło w internetowej AI. Jeśli jeszcze nie było to możliwe, na konferencji I/O 2024 poinformowaliśmy o nowych modelach, narzędziach i interfejsach API dla Twojej nowej aplikacji internetowej.
Web AI to zestaw technologii i technik służących do wykorzystywania modeli systemów uczących się po stronie klienta w przeglądarce działającej na procesorze lub GPU urządzenia. Możesz je tworzyć za pomocą JavaScriptu i innych technologii internetowych, np. WebAssembly i WebGPU. Różni się to od sztucznej inteligencji po stronie serwera czy „Cloud AI”, gdzie model działa na serwerze i uzyskuje dostęp przez interfejs API.
W tym wykładzie przedstawiliśmy:
- jak uruchamiać nasze nowe duże modele językowe (LLM) w przeglądarce oraz jaki jest wpływ uruchamiania modeli po stronie klienta;
- Spojrzenie w przyszłość Visual Blocks w celu szybszego tworzenia prototypów.
- oraz jak programiści stron internetowych mogą wykorzystać JavaScript w Chrome do współpracy z Web AI na dużą skalę.
LLM w przeglądarce
Gemma Web to nowy, otwarty model od Google, który można uruchomić w przeglądarce na urządzeniu użytkownika. Został on stworzony na podstawie tych samych badań i technologii, które wykorzystaliśmy do utworzenia Gemini.
Wprowadzenie LLM na urządzeniu może znacznie obniżyć koszty w porównaniu do wnioskowania na serwerze w chmurze, a także uzyskać lepszą ochronę prywatności użytkowników i krótszy czas oczekiwania. Generatywna AI w przeglądarkach wciąż jest na wczesnym etapie rozwoju, ale spodziewamy się, że w miarę rozwoju sprzętu (licząc procesorów i pamięci RAM GPU) będzie dostępnych więcej modeli.
Firmy mogą zmienić to, co można zrobić na stronie internetowej, zwłaszcza w przypadku zastosowań związanych z konkretnymi zadaniami, w których waga mniejszych modeli LLM (od 2 do 8 miliardów parametrów) można dostosować tak, aby uruchamiała się na sprzęcie klienta.
Narzędzie Gemma 2B można pobrać na modele Kaggle i jest dostępne w formacie zgodnym z naszym interfejsem Web LLM inference API. Inne obsługiwane architektury to Microsoft Phi-2, Falcon RW 1B i Stable LM 3B. Rozwiązania te możesz przekonwertować na format dostępny w środowisku wykonawczym, korzystając z naszej biblioteki konwertera.
Twórz szybsze prototypy za pomocą Visual Blocks
współpracujemy z firmą Hugging Face, która utworzyła 16 nowych węzłów niestandardowych dla bloków wizualnych. Dzięki temu Transformers.js i szerszym ekosystemem Hugging Face są teraz dostępne w interfejsach Visual Blocks.
8 z tych nowych węzłów z Web AI działa w całości po stronie klienta. Oto niektóre z nich:
- Podział obrazu na segmenty
- Tłumaczenie
- Klasyfikacja tokenów
- Wykrywanie obiektów
- Klasyfikacja tekstu
- Usuwanie tła
- Oszacowanie głębi
Ponadto Hugging Face zawiera 7 zadań ML po stronie serwera, które umożliwiają uruchamianie tysięcy modeli z interfejsami API w Visual Blocks. Zobacz kolekcję bloki wizualne przytulającej twarz.
Używaj JavaScriptu w Web AI na dużą skalę z Chrome
W poprzednich instancjach, np. w Gemma, model jest wczytywany i uruchamiany na stronie internetowej. Chrome pracuje nad wbudowaną sztuczną inteligencją na urządzeniu, która zapewnia dostęp do modeli za pomocą ustandaryzowanych, do konkretnych zadań interfejsów API JavaScript.
To nie wszystko. Zaktualizowaliśmy też interfejs WebGPU, dodając obsługę 16-bitowych wartości zmiennoprzecinkowych.
WebAssembly ma nową ofertę pakietową Memory64, która umożliwi obsługę 64-bitowych indeksów pamięci, co pozwoli na ładowanie większych modeli AI niż wcześniej.
Zacznij testować modele Web AI za pomocą Chrome bez interfejsu graficznego
Za pomocą Chrome bez interfejsu graficznego możesz teraz przetestować AI po stronie klienta (lub dowolną aplikację, która wymaga obsługi WebGL lub WebGPU), a jednocześnie skorzystać z GPU po stronie serwera, takich jak NVIDIA T4 lub P100. Więcej informacji:
- Uruchamianie w Google Colab
- Zapoznaj się ze szczegółowymi informacjami na temat testowania
- Zapoznaj się też z przykładowym kodem na GitHubie
Pamiętaj, że gdy udostępniasz to, co tworzysz, dodawaj #WebAI, aby pokazać ją szerszej społeczności. Podziel się swoimi odkryciami i sugestiami na X, LinkedIn lub na ulubionej platformie społecznościowej.