AI を組み込んだ言語検出

公開日: 2024 年 9 月 24 日、最終更新日: 2025 年 5 月 20 日

商品の解説 ウェブ 拡張機能 Chrome のステータス インテント
GitHub フラグの背後 Chrome 137 ベータ版 フラグの背後 Chrome 137 ベータ版 表示 発送の意向

テキストをある言語から別の言語に翻訳する前に、まずそのテキストで使用されている言語を特定する必要があります。以前は、翻訳を行うには、テキストをクラウド サービスにアップロードし、サーバーで翻訳してから、結果をダウンロードする必要がありました。

Language Detector API はクライアントサイドで動作するため、ユーザーのプライバシーを保護できます。これを実行する特定のライブラリを配布することは可能ですが、ダウンロードする追加のリソースが必要になります。

言語検出を使用する場合

Language Detector API は、主に次のシナリオで役立ちます。

  • 入力テキストの言語を特定して翻訳できるようにします。
  • 入力テキストの言語を特定して、有害なコンテンツの検出などの言語固有のタスクに適したモデルを読み込むことができます。
  • 入力テキストの言語を特定して、オンライン ソーシャル ネットワーキング サイトなどで正しくラベル付けできるようにします。
  • 入力テキストの言語を特定して、アプリのインターフェースを適切に調整できるようにします。たとえば、ベルギーのサイトで、フランス語を話すユーザーに関連するインターフェースのみを表示します。

使ってみる

Language Detector API は、Chrome 138 安定版以降で利用できます。機能検出を実行して、ブラウザが Language Detector API をサポートしているかどうかを確認します。

if ('LanguageDetector' in self) {
  // The Language Detector API is available.
}

ハードウェア要件を確認する

Language Detector API と Translator API は、パソコンの Chrome でのみ動作します。

Prompt API、Summarizer API、Writer API、Rewriter API は、次の条件を満たしている場合に Chrome で動作します。

  • オペレーティング システム: Windows 10 または 11、macOS 13 以降(Ventura 以降)、Linux。Android、iOS、ChromeOS 版 Chrome は、Gemini Nano を基盤とする API ではまだサポートされていません。
  • ストレージ: Chrome プロファイルを含むボリュームに 22 GB 以上の空き容量。
  • GPU: 4 GB を超える VRAM が必要です。
  • ネットワーク: データ通信量無制限または無制限接続。
  • GPU: 4 GB を超える VRAM が必要です。
  • ネットワーク: データ通信量無制限または無制限接続。

これらの要件は、開発プロセスと、作成した機能を利用するユーザーに存在します。

モデルのダウンロード

言語の検出は、言語の検出という特定のタスク用にファインチューニングされたモデルに依存します。API はブラウザに組み込まれていますが、モデルはサイトが API の使用を初めて試みたときにオンデマンドでダウンロードされます。Chrome では、このモデルは他のモデルと比較して非常に小さいです。このモデルは他の Chrome 機能で使用されているため、すでに存在している可能性があります。

モデルが使用可能かどうかを確認するには、非同期 LanguageDetector.availability() 関数を呼び出して、結果の Promise を調べます。回答は次の 3 つです。

  • "unavailable": リクエストされたオプションがサポートされていないか、モデルにプロンプトを表示できません。
  • "downloadable": リクエストはサポートされていますが、セッションを作成するには追加のダウンロードが必要です。これらのダウンロードには、言語モデルやファインチューニングが含まれる場合があります。
  • "downloading": リクエストはサポートされており、ダウンロードが進行中です。セッションを作成する前に完了する必要があります。
  • "available": リクエストがサポートされており、セッションを作成できます。

ダウンロードをトリガーして言語検出機能をインスタンス化するには、非同期の LanguageDetector.create() 関数を呼び出します。availability() に対するレスポンスが 'downloadable' または 'downloading' の場合、ダウンロードに時間がかかる場合にユーザーに通知できるように、ダウンロードの進行状況をリッスンすることをおすすめします。

次の例は、言語検出機能を初期化する方法を示しています。

const availability = await LanguageDetector.availability();

let detector;
if (availability === 'unavailable') {
  // The language detector isn't usable.
  return;
}
if (availability === 'available') {
  // The language detector can immediately be used.
  detector = await LanguageDetector.create();
} else {
  // The language detector can be used after model download.
  detector = await LanguageDetector.create({
    monitor(m) {
      m.addEventListener('downloadprogress', (e) => {
        console.log(`Downloaded ${e.loaded * 100}%`);
      });
    },
  });
  await detector.ready;
}

言語検出ツールを実行する

Language Detector API は、ランキング モデルを使用して、特定のテキストで使用されている可能性が高い言語を判断します。ランキングは、アイテムのリストを並べ替えることを目的とする機械学習の一種です。この場合、Language Detector API は、確率の高い順に言語をランク付けします。

detect() 関数は、最初の結果(最も可能性の高い回答)を返すか、信頼度レベルでランク付けされた候補を反復処理します。これは、{detectedLanguage, confidence} オブジェクトのリストとして返されます。confidence レベルは、0.0(信頼度が最も低い)から 1.0(信頼度が最も高い)までの値で表されます。

const someUserText = 'Hallo und herzlich willkommen!';
const results = await detector.detect(someUserText);
for (const result of results) {
  // Show the full list of potential languages with their likelihood, ranked
  // from most likely to least likely. In practice, one would pick the top
  // language(s) that cross a high enough threshold.
  console.log(result.detectedLanguage, result.confidence);
}
// (Output truncated):
// de 0.9993835687637329
// en 0.00038279531872831285
// nl 0.00010798392031574622
// ...

API Playground

API Playground で Language Detector API を試す。テキスト エリアに、さまざまな言語で記述されたテキストを入力します。

標準化の取り組み

Chrome チームは W3C 技術アーキテクチャ グループにフィードバックをリクエストし、MozillaWebKit に標準に関する立場を尋ねました。

フィードバックをお寄せください

Language Detector API を使って作成したアプリをぜひお見せください。ウェブサイトやウェブ アプリケーションを XYouTubeLinkedIn で共有してください。

Chrome の実装についてフィードバックがある場合は、Chromium のバグを報告してください。