W ciągu ostatniego roku w zakresie AI w internecie wiele się zmieniło. Jeśli jeszcze tego nie wiecie, na konferencji I/O 2024 wygłosiliśmy prelekcję na temat nowych modeli, narzędzi i interfejsów API do tworzenia kolejnych aplikacji internetowych.
Web AI to zestaw technologii i technik wykorzystujących modele systemów uczących się po stronie klienta w przeglądarce internetowej działającej na procesorze lub procesorze graficznym urządzenia. Można ją utworzyć za pomocą JavaScriptu i innych technologii internetowych, takich jak WebAssembly i WebGPU. Różni się to od AI po stronie serwera lub „AI w chmurze”, gdzie model jest wykonywany na serwerze i dostępny za pomocą interfejsu API.
Podczas tego wystąpienia omówiliśmy:
- Jak uruchamiać nasze nowe duże modele językowe (LLM) w przeglądarce i jaki jest wpływ uruchamiania modeli po stronie klienta;
- spojrzenie w przyszłość bloków wizualnych, które pozwolą szybciej tworzyć prototypy;
- Dowiesz się też, jak programiści stron internetowych mogą używać JavaScriptu w Chrome do pracy z technologią Web AI na dużą skalę.
LLM w przeglądarce
Gemma Web to nowy otwarty model od Google, który może działać w przeglądarce na urządzeniu użytkownika. Został on stworzony na podstawie tych samych badań i technologii, których użyliśmy do stworzenia Gemini.
Umieszczenie modelu LLM na urządzeniu daje znaczne możliwości oszczędności w porównaniu z uruchamianiem go na serwerze w chmurze na potrzeby wnioskowania, a także zwiększa prywatność użytkowników i skraca czas oczekiwania. Generatywna AI w przeglądarce jest wciąż na wczesnym etapie rozwoju, ale wraz z ulepszaniem sprzętu (większa pamięć RAM procesora i procesora graficznego) spodziewamy się, że będzie dostępnych więcej modeli.
Firmy mogą na nowo wyobrazić sobie, co można robić na stronie internetowej, zwłaszcza w przypadku zastosowań specyficznych dla konkretnych zadań, w których wagi mniejszych modeli LLM (od 2 do 8 miliardów parametrów) można dostosować do działania na sprzęcie konsumenckim.
Gemma 2B jest dostępna do pobrania w Kaggle Models w formacie zgodnym z naszym interfejsem Web LLM Inference API. Inne obsługiwane architektury to Microsoft Phi-2, Falcon RW 1B i Stable LM 3B, które możesz przekonwertować na format używany przez środowisko wykonawcze za pomocą naszej biblioteki konwertera.
Szybsze tworzenie prototypów dzięki blokom wizualnym
Współpracujemy z firmą Hugging Face, która stworzyła 16 nowych niestandardowych węzłów dla bloków wizualnych. Dzięki temu Transformers.js i cały ekosystem Hugging Face będą dostępne w blokach wizualnych.
8 z tych nowych węzłów działa w całości po stronie klienta, korzystając z Web AI. Są to:
- Segmentacja obrazu
- Tłumaczenie
- Klasyfikacja tokenów
- Wykrywanie obiektów
- Klasyfikacja tekstu
- Usuwanie tła
- Szacowanie głębi
Dostępnych jest też 7 zadań uczenia maszynowego po stronie serwera z Hugging Face, które umożliwiają uruchamianie tysięcy modeli za pomocą interfejsów API w Blokach wizualnych. Zapoznaj się z kolekcją Hugging Face Visual Blocks.
Skorzystaj z JavaScriptu do obsługi AI w internecie na dużą skalę w Chrome
W poprzednich przypadkach, np. w przypadku Gemy, model jest wczytywany i uruchamiany na stronie internetowej. Chrome pracuje nad wbudowaną AI na urządzeniu, w której możesz uzyskiwać dostęp do modeli za pomocą standardowych interfejsów JavaScript API przeznaczonych do konkretnych zadań.
To nie wszystko. Chrome zaktualizował też WebGPU, dodając obsługę 16-bitowych wartości zmiennoprzecinkowych.
WebAssembly ma nową propozycję, Memory64, która obsługuje 64-bitowe indeksy pamięci, co pozwoli Ci wczytywać większe modele AI niż dotychczas.
Rozpoczęcie testowania modeli AI w internecie za pomocą Chrome bez interfejsu
Możesz teraz testować sztuczną inteligencję po stronie klienta (lub dowolną aplikację, która wymaga obsługi WebGL lub WebGPU) za pomocą Headless Chrome, korzystając z procesorów graficznych po stronie serwera do akceleracji, takich jak NVIDIA T4 lub P100. Więcej informacji:
- Uruchom w Google Colab
- Szczegółowe informacje o testowaniu
- Zapoznaj się też z przykładowym kodem na GitHubie.
Pamiętaj, aby udostępniając swoje dzieła, dodać hashtag #WebAI, aby szersza społeczność mogła zobaczyć Twoją pracę. Podziel się swoimi spostrzeżeniami i sugestiami na platformie X, LinkedIn lub innej platformie społecznościowej.