公開日: 2024 年 11 月 21 日
Gemini API デベロッパー コンペティションに数多くの素晴らしい作品が寄せられ、最優秀ウェブ アプリケーションとして ViddyScribe が選ばれました。
ViddyScribe は、Gemini が視覚障がいのあるユーザー向けにカスタマイズされた動画の音声解説を生成することで、YouTube やその他のプラットフォームで動画のアクセシビリティを高める方法の一例です。
機能と Gemini の機能
ViddyScribe は、ユーザーファーストで設計されたアプリケーションを構築しました。文字起こしや音声解説を生成するソリューションはすでに多数存在しますが、ViddyScribe は、視覚障がいのあるユーザーという特定のユーザー層にとって、迅速な結果と快適なユーザー エクスペリエンスの両方を優先する出力を生成することを重視しました。
この視聴者向けに動画を手動でアノテーションして追加の詳細情報を提供するには、時間がかかりすぎることが多く、無視されることもよくあります。ViddyScribe は Gemini を使用して、テキスト ファイルに任意のフレームの説明を追加する以上の拡張性を持つカスタム ソリューションを作成しました。
ViddyScribe は、プロンプト エンジニアリングを使用して、Gemini 1.5 Pro に最適な結果を得るために、質問の言語とスタイルをキュレートしました。このプロンプトでは、Chain-of-Thought プロンプトを使用して、次のことをリクエストしています。
- 動画の目的とコンテキスト。
- 動画固有の分析とガイドラインを使用した、カスタマイズされた音声による説明。
- 予測可能で一貫性のある形式になるように、タイムスタンプと説明の形式を変更しました。
ViddyScribe を選んだ理由
ViddyScribe は、ユーザーの実際の問題に対する優れたソリューションであるため、このアプリを選びました。
市場には音声解説を提供する他のアプリケーションがあるものの、聴覚障がい者や視覚障がい者のニーズが十分に理解されていないと感じていました。これらのデベロッパーは、こうした障がいのあるユーザーと協力して、音声解説アプリに必要な機能を正確に特定しました。
障がいのある方の経験は大きく異なる可能性があり、競合するニーズがある場合もあります。また、音声解説は、神経多様性を持つユーザーや、動画を視聴するよりも文字起こしを読むことを好むユーザーにとっても、動画にアクセスしやすくします。
今後、デベロッパーが ViddyScribe をどのように強化し、視聴者と機能を拡大していくのか、楽しみにしています。
組み込み AI API を使用して構築を続ける
ViddyScribe は、Gemini を使用して構築された多くの優れたアプリケーションの 1 つにすぎません。
Google は、組み込み AI を開発しています。これは、大規模言語モデル(LLM)などの AI モデルをブラウザに直接統合するために設計されたウェブ プラットフォーム API とブラウザ機能です。これには、ほとんどの最新のデスクトップ パソコンやノートパソコンでローカルに実行できるように設計された、Gemini ファミリーの LLM の最も効率的なバージョンである Gemini Nano が含まれます。
利用可能な API を確認して、強力なウェブサイト、ウェブ アプリケーション、Chrome 拡張機能の構築を始めましょう。
@ChromiumDev で作成したものを共有するか、LinkedIn の Chrome for Developers で共有してください。