このページは Cloud Translation API によって翻訳されました。

組み込みの AI

Kenji Baheux

Alexandra Klepper

ウェブ上で AI モデルを使用して特徴を構築する場合、大規模なモデルについてはサーバー側のソリューションに依存することがよくあります。これは特に生成 AI に当てはまります。生成 AI では、最小のモデルでもウェブページサイズの中央値の約 1, 000 倍の大きさがあります。これは、モデルが数十メガバイトから数百メガバイトに及ぶ可能性がある他の AI ユースケースにも当てはまります。

これらのモデルはウェブサイト間で共有されないため、各サイトはページの読み込み時にモデルをダウンロードする必要があります。これはデベロッパーやユーザーにとって実用的でないソリューションで

サーバーサイド AI は大規模モデルに適したオプションですが、オンデバイスアプローチとハイブリッドアプローチには、独自の魅力的な利点があります。これらのアプローチを実現するには、モデルのサイズとモデルの配信に対処する必要があります。

そのため Google では、大規模言語モデル（LLM）などの AI モデルをブラウザに直接統合することを目的としたウェブプラットフォーム API とブラウザ機能を開発しています。これには、Gemini の LLM ファミリーの最も効率的なバージョンである Gemini Nano が含まれます。Gemini Nano は、最新のほとんどのデスクトップパソコンやノートパソコンでローカルに動作するように設計されています。組み込みの AI を使用すると、ウェブサイトやウェブアプリケーションで、独自の AI モデルのデプロイや管理を必要とせずに、AI を活用したタスクを実行できます。

組み込みの AI の利点、実装計画、このテクノロジーの活用方法について説明します。

早期プレビュー版を入手

Google は、API を設計し、お客様のユースケースに確実に応え、他のブラウザベンダーとの標準化について話し合うために、皆様からのインプットを必要としています。

早期プレビュープログラムに参加すると、初期段階の組み込み AI のアイデアに関するフィードバックを提供したり、ローカルプロトタイピングで開発中の API をテストする機会を見つけたりできます。

Chrome AI デベロッパー向けの公式発表グループに参加すると、新しい API が利用可能になったときに通知を受け取ることができます。

ウェブデベロッパー向けの組み込み AI のメリット

組み込みの AI により、ブラウザは基盤モデルとエキスパートモデルを提供し、管理します。

デバイス AI を自分で実行する場合と比較して、組み込み AI には次の利点があります。

デプロイの容易さ: ブラウザはモデルを分散する際、デバイスの機能を考慮し、モデルの更新を管理します。つまり、ネットワーク経由で大規模モデルをダウンロードまたは更新する必要はありません。ストレージエビクション、ランタイムメモリ予算、サービス費用などの課題を解決する必要がありません。
ハードウェアアクセラレーションへのアクセス: ブラウザの AI ランタイムは、GPU、NPU、CPU へのフォールバックなど、使用可能なハードウェアを最大限に活用するように最適化されています。その結果、各デバイスでアプリのパフォーマンスを最大限に高めることができます。

デバイス上で実行するメリット

組み込みの AI アプローチでは、デバイス上で AI タスクを実行することが簡単になり、次のような利点があります。

機密データのローカル処理: オンデバイス AI によってプライバシーストーリーが改善されます。たとえば、機密データを扱う場合は、エンドツーエンドの暗号化を使用して、AI 機能をユーザーに提供できます。
Snappy ユーザーエクスペリエンス: 場合によっては、サーバーとのラウンドトリップを省くことで、ほぼ瞬時に結果を得られる可能性があります。オンデバイス AI は、実現可能な機能と、最適ではないユーザーエクスペリエンスとの違いを生み出します。
AI への優れたアクセス: ユーザーのデバイスが処理負荷の一部を肩代わりして、より多くの機能にアクセスできるようにします。たとえば、プレミアム AI 機能を提供する場合、これらの機能をデバイス上の AI でプレビューし、追加費用なしでプロダクトの利点を見込み顧客にアピールできます。このハイブリッドアプローチは、特に頻繁に使用されるユーザーフローにおける推論費用の管理にも役立ちます。
オフラインでの AI の使用: ユーザーはインターネットに接続されていなくても AI 機能にアクセスできます。つまり、オフラインでも接続性が変化しても、サイトとウェブアプリは想定どおりに動作します。

ハイブリッド AI: オンデバイスおよびサーバーサイド

オンデバイス AI はさまざまなユースケースに対応できますが、サーバーサイドのサポートが必要なユースケースもあります。

たとえば、より大きなモデルを使用したり、幅広いプラットフォームとデバイスをサポートする必要がある場合があります。

以下に応じて、ハイブリッドアプローチを検討してもよいでしょう。

複雑さ: 具体的で親しみやすいユースケースは、オンデバイス AI でサポートするのが簡単です。複雑なユースケースの場合は、サーバーサイドの実装を検討してください。
復元性: デフォルトでサーバーサイドを使用し、デバイスがオフラインのときや接続が不安定なときにオンデバイスを使用します。
正常なフォールバック: AI が組み込まれたブラウザの導入には時間がかかります。また、モデルによっては使用できない場合があります。また、古いデバイスや性能が劣るデバイスは、すべてのモデルを最適に実行するためのハードウェア要件を満たさない可能性があります。そのようなユーザーにサーバーサイド AI を提供します。

Gemini モデルでは、バックエンド統合（Python、Go、Node.js、REST）を使用するか、新しいウェブ用 Google AI クライアント SDK を使用してウェブアプリケーションに実装できます。

ブラウザアーキテクチャと API

Chrome の組み込み AI をサポートするために、デバイス上で実行するための基盤モデルとエキスパートモデルにアクセスするためのインフラストラクチャを構築しました。このインフラストラクチャは、文書作成サポートなどの革新的なブラウザ機能をすでに支えており、まもなくオンデバイス AI の API を強化する予定です。

組み込みの AI 機能にアクセスするには、主に Translation API や Summarization API などのタスク API を使用します。Task API は、割り当てに最適なモデルに対して推論を実行するように設計されています。

Chrome では、これらの API は、微調整またはエキスパートモデルを使用して Gemini Nano に対して推論を実行するように構築されています。ほとんどの最新デバイスでローカルに動作するように設計された Genmini Nano は、要約、言い換え、分類などの言語関連のユースケースに最適です。

また、ローカルでテストを行い、追加のユースケースを共有できるように、試験運用版の API を提供する予定です。

たとえば、次のような情報を提供します。

Prompt API: 組み込みの大規模言語モデル（Chrome の Genmini Nano）に自然言語で表現された任意のタスクを送信します。
ファインチューニング（LoRA）API: 低ランク適応のファインチューニングでモデルの重みを調整し、タスクに対する組み込み LLM のパフォーマンスを改善します。