Встроенный ИИ

Кенджи Баэ
Kenji Baheux

Опубликовано: 14 мая 2024 г., Последнее обновление: 13 ноября 2024 г.

Когда мы создаем функции с использованием моделей искусственного интеллекта в Интернете, мы часто полагаемся на серверные решения для более крупных моделей. Это особенно актуально для генеративного искусственного интеллекта, где даже самые маленькие модели примерно в тысячу раз превышают средний размер веб-страницы . Это также верно и для других случаев использования ИИ, где модели могут иметь размер от 10 до 100 мегабайт. Поскольку эти модели не являются общими для всех веб-сайтов , каждый сайт должен загружать их при загрузке страницы. Это непрактично для разработчиков и пользователей.

Мы разрабатываем API-интерфейсы веб-платформы и функции браузера, предназначенные для интеграции моделей искусственного интеллекта, включая модели больших языков (LLM), непосредственно в браузер. Сюда входит Gemini Nano , наиболее эффективная версия семейства LLM Gemini, предназначенная для локального запуска на большинстве современных настольных и портативных компьютеров. Благодаря встроенному ИИ ваш веб-сайт или веб-приложение может выполнять задачи на основе ИИ без необходимости развертывания собственных моделей ИИ или управления ими.

Узнайте о преимуществах встроенного искусственного интеллекта, нашем плане внедрения и о том, как вы можете воспользоваться этой технологией.

Получить ранний предварительный просмотр

Нам нужен ваш вклад, чтобы сформировать API, убедиться, что они соответствуют вашим сценариям использования, и предоставить информацию для наших обсуждений с другими поставщиками браузеров для стандартизации.

Присоединяйтесь к нашей программе раннего предварительного просмотра, чтобы оставить отзыв об идеях встроенного ИИ на ранней стадии и открыть для себя возможности тестирования находящихся в стадии разработки API посредством локального прототипирования.

Присоединяйтесь к группе публичных объявлений разработчиков Chrome AI, чтобы получать уведомления о появлении новых API.

Преимущества встроенного искусственного интеллекта для веб-разработчиков

Благодаря встроенному ИИ ваш браузер предоставляет базовые и экспертные модели и управляет ими.

По сравнению с созданием собственного ИИ на стороне клиента встроенный ИИ предлагает следующие преимущества:

  • Простота развертывания . При распространении моделей браузер учитывает возможности устройства и управляет обновлениями модели. Это означает, что вы не несете ответственности за загрузку или обновление больших моделей по сети. Вам не придется решать вопросы вытеснения хранилища, бюджета оперативной памяти, затрат на обслуживание и других проблем.
  • Доступ к аппаратному ускорению : среда выполнения искусственного интеллекта в браузере оптимизирована для максимально эффективного использования доступного оборудования, будь то графический процессор, NPU или использование центрального процессора. Следовательно, ваше приложение может обеспечить максимальную производительность на каждом устройстве.

Преимущества работы на стороне клиента

Благодаря встроенному подходу ИИ выполнение задач ИИ на стороне клиента становится тривиальным, что, в свою очередь, дает следующие преимущества:

  • Локальная обработка конфиденциальных данных . ИИ на стороне клиента может улучшить вашу историю конфиденциальности. Например, если вы работаете с конфиденциальными данными, вы можете предложить пользователям функции искусственного интеллекта со сквозным шифрованием.
  • Быстрый пользовательский опыт . В некоторых случаях отказ от обращения к серверу означает, что вы можете предложить почти мгновенные результаты. ИИ на стороне клиента может стать разницей между жизнеспособной функцией и неоптимальным пользовательским интерфейсом.
  • Расширенный доступ к искусственному интеллекту . Устройства ваших пользователей могут взять на себя часть вычислительной нагрузки в обмен на больший доступ к функциям. Например, если вы предлагаете функции искусственного интеллекта премиум-класса, вы можете предварительно просмотреть эти функции с помощью искусственного интеллекта на стороне клиента, чтобы потенциальные клиенты могли увидеть преимущества вашего продукта без дополнительных затрат с вашей стороны. Этот гибридный подход также может помочь вам управлять затратами на логические выводы, особенно в отношении часто используемых пользовательских потоков.
  • Использование ИИ в автономном режиме . Ваши пользователи могут получить доступ к функциям ИИ даже при отсутствии подключения к Интернету. Это означает, что ваши сайты и веб-приложения могут работать как положено в автономном режиме или с переменным подключением.

Гибридный искусственный интеллект: на стороне клиента и на стороне сервера

Хотя ИИ на стороне клиента может обрабатывать широкий спектр вариантов использования, в некоторых случаях требуется поддержка на стороне сервера.

Серверный ИИ — отличный вариант для больших моделей, поскольку он может поддерживать более широкий спектр платформ и устройств.

Вы можете рассмотреть гибридный подход в зависимости от:

  • Сложность: конкретные и доступные варианты использования легче поддерживать с помощью искусственного интеллекта на устройстве. В сложных случаях использования рассмотрите возможность реализации на стороне сервера.
  • Устойчивость : по умолчанию используйте серверную часть и используйте устройство на устройстве, когда устройство находится в автономном режиме или имеет нестабильное соединение.
  • Грациозный запасной вариант : внедрение браузеров со встроенным искусственным интеллектом займет время, некоторые модели могут быть недоступны, а старые или менее мощные устройства могут не соответствовать аппаратным требованиям для оптимальной работы всех моделей. Предложите этим пользователям серверный ИИ.

Для моделей Gemini вы можете использовать интеграцию с серверной частью (с Python , Go , Node.js или REST ) ​​или реализовать в своем веб-приложении с помощью нового клиентского SDK Google AI для Интернета .

Архитектура браузера и API

Для поддержки встроенного искусственного интеллекта в Chrome мы создали инфраструктуру для доступа к базовым и экспертным моделям для выполнения на устройстве. Эта инфраструктура уже поддерживает инновационные функции браузера, такие как «Помоги мне написать» .

Доступ к встроенным возможностям искусственного интеллекта можно получить в основном с помощью API задач , таких как API переводчика или API Summarizer. API-интерфейсы задач предназначены для определения наилучшей модели для задания.

В Chrome эти API созданы для выполнения логических выводов на основе Gemini Nano с тонкой настройкой или экспертной модели. Gemini Nano, предназначенный для локального запуска на большинстве современных устройств, лучше всего подходит для случаев использования, связанных с языком, таких как обобщение, перефразирование или категоризация.

Мы также предоставляем исследовательские API, такие как Prompt API , чтобы вы могли экспериментировать локально и делиться дополнительными вариантами использования.

В будущем мы можем предложить исследовательский API LoRA , чтобы улучшить производительность встроенной модели за счет корректировки ее веса.

На этой диаграмме показано, как ваш веб-сайт или приложение может использовать API задач и исследовательских веб-платформ для доступа к моделям, встроенным в Chrome.

Когда использовать встроенный ИИ

Вот несколько способов, которыми встроенный ИИ может принести пользу вам и вашим пользователям:

  • Потребление контента с помощью искусственного интеллекта : включая обобщение, перевод, категоризацию, характеристику и работу в качестве поставщика знаний.
  • Создание контента с поддержкой искусственного интеллекта : например, помощь в написании, корректуре, исправлении грамматики и перефразировании.

Что дальше

Некоторые встроенные API-интерфейсы искусственного интеллекта доступны для тестирования в исходных пробных версиях. Исследовательские API и другие API ранней стадии доступны участникам программы ранней предварительной версии .

Узнайте, как использовать Gemini Pro на серверах Google со своими веб-сайтами и веб-приложениями, из нашего краткого руководства по Google AI JavaScript SDK .