Im letzten Jahr hat sich im Bereich Web-KI viel getan. Falls Sie es verpasst haben: Auf der I/O 2024 haben wir einen Vortrag über die neuen Modelle, Tools und APIs für Ihre nächste Webanwendung gehalten.
Web-KI umfasst eine Reihe von Technologien und Verfahren, mit denen Modelle für maschinelles Lernen (ML) clientseitig in einem Webbrowser verwendet werden, der auf der CPU oder GPU eines Geräts ausgeführt wird. Diese können mit JavaScript und anderen Webtechnologien wie WebAssembly und WebGPU erstellt werden. Das unterscheidet sich von der serverseitigen KI oder „Cloud-KI“, bei der das Modell auf einem Server ausgeführt wird und über eine API darauf zugegriffen wird.
In diesem Vortrag haben wir Folgendes geteilt:
- Wie Sie unsere neuen Large Language Models (LLMs) im Browser ausführen und welche Auswirkungen das Ausführen von Modellen auf der Clientseite hat
- Ein Blick in die Zukunft von Visual Blocks, um schneller Prototypen zu erstellen;
- Außerdem erfahren Sie, wie Webentwickler JavaScript in Chrome verwenden können, um Web-KI im großen Maßstab zu nutzen.
LLMs im Browser
Gemma Web ist ein neues offenes Modell von Google, das im Browser auf dem Gerät eines Nutzers ausgeführt werden kann. Es basiert auf derselben Forschung und Technologie, die wir für die Erstellung von Gemini verwendet haben.
Durch die Bereitstellung eines LLM auf dem Gerät können im Vergleich zur Ausführung auf einem Cloud-Server für die Inferenz erhebliche Kosteneinsparungen erzielt werden. Außerdem wird die Datensicherheit für Nutzer erhöht und die Latenz verringert. Generative KI im Browser befindet sich noch in der Anfangsphase. Da sich die Hardware jedoch kontinuierlich verbessert (mit mehr CPU- und GPU-RAM), werden voraussichtlich weitere Modelle verfügbar sein.
Unternehmen können neu über die Möglichkeiten nachdenken, die auf einer Webseite verfügbar sind, insbesondere für aufgabenspezifische Anwendungsfälle, bei denen die Gewichte kleinerer LLMs (2 bis 8 Milliarden Parameter) so angepasst werden können, dass sie auf Verbraucherhardware ausgeführt werden können.
Gemma 2B kann auf Kaggle Models heruntergeladen werden und ist in einem Format verfügbar, das mit unserer Web LLM Inference API kompatibel ist. Weitere unterstützte Architekturen sind Microsoft Phi-2, Falcon RW 1B und Stable LM 3B. Mit unserer Konvertierungsbibliothek können Sie diese in ein Format konvertieren, das von der Laufzeit verwendet werden kann.
Mit Visual Blocks schneller Prototypen erstellen
Wir arbeiten mit Hugging Face zusammen, das 16 brandneue benutzerdefinierte Knoten für Visual Blocks entwickelt hat. So können Sie Transformers.js und das gesamte Hugging Face-System in Visual Blocks verwenden.
Acht dieser neuen Knoten werden vollständig clientseitig mit Web-KI ausgeführt, darunter:
- Bildsegmentierung
- Translation
- Tokenklassifizierung
- Objekterkennung
- Textklassifizierung
- Hintergrundentfernung
- Tiefeschätzung
Außerdem gibt es sieben serverseitige ML-Aufgaben von Hugging Face, mit denen Sie Tausende von Modellen mit APIs in Visual Blocks ausführen können. Sehen Sie sich die Sammlung „Visual Blocks“ von Hugging Face“ an.
JavaScript für Web-KI im großen Maßstab mit Chrome verwenden
In den vorherigen Beispielen, z. B. bei Gemma, wird das Modell auf der Webseite selbst geladen und ausgeführt. In Chrome wird an integrierter On-Device-KI gearbeitet, mit der Sie über standardisierte, aufgabenspezifische JavaScript APIs auf Modelle zugreifen können.
Und das ist noch nicht alles. Außerdem wurde WebGPU in Chrome um die Unterstützung von 16‑Bit-Gleitkommawerten erweitert.
Für WebAssembly gibt es einen neuen Vorschlag, Memory64, zur Unterstützung von 64-Bit-Speicherindizes. Damit lassen sich größere KI-Modelle als bisher laden.
Web-KI-Modelle mit headless Chrome testen
Sie können jetzt clientseitige KI (oder jede Anwendung, die WebGL- oder WebGPU-Unterstützung benötigt) mit Headless Chrome testen und dabei serverseitige GPUs wie NVIDIA T4 oder P100 zur Beschleunigung nutzen. Weitere Informationen:
Denk daran, wenn du deine Kreationen teilst, den Hashtag #WebAI hinzuzufügen, damit die breitere Community deine Arbeit sehen kann. Teilen Sie Ihre Ergebnisse und Vorschläge auf X, LinkedIn oder in Ihrer bevorzugten Social-Media-Plattform.