Integrierte KI

Kenji Baheux
Kenji Baheux

Veröffentlicht: 14. Mai 2024, zuletzt aktualisiert: 13. November 2024

Wenn wir Funktionen mit KI-Modellen im Web entwickeln, setzen wir für größere Modelle häufig auf serverseitige Lösungen. Das gilt insbesondere für die generative KI, bei der selbst die kleinsten Modelle etwa tausendmal größer sind als die mediane Webseitengröße. Das gilt auch für andere KI-Anwendungsfälle, bei denen Modelle zwischen 10 und 100 Megabyte groß sein können. Da diese Modelle nicht für alle Websites freigegeben werden, muss jede Website sie beim Laden der Seite herunterladen. Das ist für Entwickler und Nutzer unpraktisch.

Wir entwickeln Webplattform-APIs und Browserfunktionen, mit denen KI-Modelle, einschließlich Large Language Models (LLMs), direkt in den Browser eingebunden werden können. Dazu gehört Gemini Nano, die effizienteste Version der LLM-Familie von Gemini, die lokal auf den meisten modernen Desktop- und Laptop-Computern ausgeführt werden kann. Mit integrierter KI kann Ihre Website oder Webanwendung KI-gestützte Aufgaben ausführen, ohne eigene KI-Modelle bereitstellen oder verwalten zu müssen.

Hier erfahren Sie mehr über die Vorteile der integrierten KI, unseren Implementierungsplan und wie Sie diese Technologie nutzen können.

Frühe Vorabversion erhalten

Wir benötigen Ihren Input, um die APIs zu gestalten, dafür zu sorgen, dass sie Ihre Anwendungsfälle erfüllen, und unsere Gespräche mit anderen Browseranbietern zur Standardisierung zu informieren.

Nehmen Sie am Early Preview-Programm teil, um Feedback zu Ideen für integrierte KI in der Anfangsphase zu geben und Möglichkeiten zu entdecken, in der Entwicklung befindliche APIs durch lokales Prototyping zu testen.

Treten Sie der Gruppe für öffentliche Ankündigungen für Chrome AI-Entwickler bei, um benachrichtigt zu werden, wenn neue APIs verfügbar sind.

Vorteile der integrierten KI für Webentwickler

Mit der integrierten KI stellt Ihr Browser Grundlagen und Expertenmodelle bereit und verwaltet sie.

Im Vergleich zum Erstellen eigener clientseitiger KI bietet die integrierte KI folgende Vorteile:

  • Einfache Bereitstellung: Beim Verteilen der Modelle durch den Browser werden die Funktionen des Geräts berücksichtigt und Updates für das Modell verwaltet. Sie sind also nicht für das Herunterladen oder Aktualisieren großer Modelle über ein Netzwerk verantwortlich. Sie müssen keine Lösungen für die Auslagerung von Speicher, das Laufzeitspeicherbudget, die Bereitstellungskosten und andere Herausforderungen finden.
  • Zugriff auf Hardwarebeschleunigung: Die KI-Laufzeit des Browsers ist so optimiert, dass die verfügbare Hardware optimal genutzt wird, sei es eine GPU, eine NPU oder die CPU. So kann Ihre App auf jedem Gerät die bestmögliche Leistung erzielen.

Vorteile der clientseitigen Ausführung

Mit einem integrierten KI-Ansatz können KI-Aufgaben ganz einfach clientseitig ausgeführt werden. Das bietet folgende Vorteile:

  • Lokale Verarbeitung sensibler Daten: Clientseitige KI kann Ihre Datenschutzmaßnahmen verbessern. Wenn Sie beispielsweise mit sensiblen Daten arbeiten, können Sie Nutzern KI-Funktionen mit Ende-zu-Ende-Verschlüsselung anbieten.
  • Schnelle Nutzererfahrung: In einigen Fällen können Sie durch den Wegfall der Rückschleife zum Server nahezu sofortige Ergebnisse liefern. Clientseitige KI kann den Unterschied zwischen einer funktionsfähigen Funktion und einer suboptimalen Nutzererfahrung ausmachen.
  • Mehr Zugriff auf KI: Die Geräte Ihrer Nutzer können einen Teil der Verarbeitungslast übernehmen, um mehr Zugriff auf Funktionen zu erhalten. Wenn Sie beispielsweise KI-Premiumfunktionen anbieten, können Sie diese Funktionen mit clientseitiger KI in einer Vorschau anzeigen lassen, damit potenzielle Kunden die Vorteile Ihres Produkts sehen können, ohne dass Ihnen zusätzliche Kosten entstehen. Dieser hybride Ansatz kann Ihnen auch dabei helfen, die Inferenzkosten zu verwalten, insbesondere bei häufig verwendeten Nutzerflüssen.
  • Offlinenutzung von KI: Ihre Nutzer können auch dann auf KI-Funktionen zugreifen, wenn keine Internetverbindung besteht. So können Ihre Websites und Webanwendungen wie erwartet offline oder bei einer variablen Verbindung funktionieren.

Hybrid-KI: Client- und serverseitig

Clientseitige KI kann zwar eine Vielzahl von Anwendungsfällen bewältigen, es gibt aber bestimmte Fälle, in denen serverseitige Unterstützung erforderlich ist.

Serverseitige KI ist eine gute Option für große Modelle und kann eine größere Bandbreite von Plattformen und Geräten unterstützen.

Je nach folgenden Faktoren können Sie einen hybriden Ansatz in Betracht ziehen:

  • Komplexität: Bestimmte, leicht verständliche Anwendungsfälle lassen sich mit On-Device-KI leichter unterstützen. Bei komplexen Anwendungsfällen sollten Sie eine serverseitige Implementierung in Betracht ziehen.
  • Ausfallsicherheit: Standardmäßig wird die serverseitige Verarbeitung verwendet. Wenn das Gerät offline ist oder eine mäßige Verbindung hat, wird die Verarbeitung auf dem Gerät ausgeführt.
  • Graceful Fallback: Die Einführung von Browsern mit integrierter KI wird einige Zeit in Anspruch nehmen. Einige Modelle sind möglicherweise nicht verfügbar und ältere oder weniger leistungsstarke Geräte erfüllen möglicherweise nicht die Hardwareanforderungen für die optimale Ausführung aller Modelle. Bieten Sie diesen Nutzern serverseitige KI an.

Für Gemini-Modelle können Sie die Backend-Integration (mit Python, Go, Node.js oder REST) verwenden oder sie mit dem neuen Google AI Client SDK für das Web in Ihrer Webanwendung implementieren.

Browserarchitektur und APIs

Zur Unterstützung der integrierten KI in Chrome haben wir eine Infrastruktur für den Zugriff auf Foundation- und Expertenmodelle zur Ausführung auf dem Gerät erstellt. Diese Infrastruktur ermöglicht bereits innovative Browserfunktionen wie Formuliere für mich.

Sie können hauptsächlich über Aufgaben-APIs auf integrierte KI-Funktionen zugreifen, z. B. die Translator API oder die Summarizer API. Task-APIs sind so konzipiert, dass Inferenzen mit dem für die Aufgabe besten Modell ausgeführt werden.

In Chrome sind diese APIs so konzipiert, dass Inferenzen mit Gemini Nano mit Feinabstimmung oder einem Expertenmodell ausgeführt werden. Gemini Nano wurde für die lokale Ausführung auf den meisten modernen Geräten entwickelt und eignet sich am besten für sprachbezogene Anwendungsfälle wie Zusammenfassung, Umformulierung oder Kategorisierung.

Wir stellen auch explorative APIs wie die Prompt API bereit, damit Sie lokal experimentieren und zusätzliche Anwendungsfälle teilen können.

In Zukunft werden wir möglicherweise eine explorative LoRA API anbieten, mit der Sie die Leistung des integrierten Modells durch Anpassung der Gewichte des Modells verbessern können.

Dieses Diagramm zeigt, wie Ihre Website oder App mithilfe von APIs für Webplattformen für Aufgaben und explorative Datenanalysen auf in Chrome integrierte Modelle zugreifen kann.

Wann sollte die integrierte KI verwendet werden?

Hier sind einige Möglichkeiten, wie Sie und Ihre Nutzer von der integrierten KI profitieren können:

  • KI-gestützte Inhalte: Dazu gehören Zusammenfassung, Übersetzung, Kategorisierung, Charakterisierung und Wissensvermittlung.
  • KI-gestützte Erstellung von Inhalten: Dazu gehören beispielsweise Unterstützung beim Schreiben, Korrekturlesen, Grammatikkorrektur und Umformulierung.

Nächste Schritte

Einige der eingebauten KI-APIs können in Ursprungstests getestet werden. Explorative APIs und andere APIs in der Anfangsphase sind für Teilnehmer des Vorab-Vorschauprogramms verfügbar.

In der Kurzanleitung für das Google AI JavaScript SDK erfahren Sie, wie Sie Gemini Pro auf den Google-Servern mit Ihren Websites und Web-Apps verwenden.