Встроенный ИИ

Кенджи Бае
Kenji Baheux

Когда мы создаем функции с использованием моделей искусственного интеллекта в Интернете, мы часто полагаемся на серверные решения для более крупных моделей. Это особенно актуально для генеративного искусственного интеллекта, где даже самые маленькие модели примерно в тысячу раз превышают средний размер веб-страницы . Это также верно и для других случаев использования ИИ, где модели могут иметь размер от 10 до 100 мегабайт.

Поскольку эти модели не являются общими для всех веб-сайтов , каждый сайт должен загружать их при загрузке страницы. Это непрактичное решение для разработчиков и пользователей.

Хотя серверный ИИ является отличным вариантом для больших моделей, подходы на устройстве и гибридные подходы имеют свои собственные убедительные преимущества . Чтобы сделать эти подходы жизнеспособными, нам необходимо решить проблему размера модели и ее доставки.

Вот почему мы разрабатываем API-интерфейсы веб-платформы и функции браузера, предназначенные для интеграции моделей искусственного интеллекта, включая модели больших языков (LLM), непосредственно в браузер. Сюда входит Gemini Nano , наиболее эффективная версия семейства LLM Gemini, предназначенная для локального запуска на большинстве современных настольных и портативных компьютеров. Благодаря встроенному ИИ ваш веб-сайт или веб-приложение может выполнять задачи на основе ИИ без необходимости развертывания собственных моделей ИИ или управления ими.

Узнайте о преимуществах встроенного искусственного интеллекта, нашем плане внедрения и о том, как вы можете воспользоваться этой технологией.

Получить ранний предварительный просмотр

Нам нужен ваш вклад, чтобы сформировать API, убедиться, что они соответствуют вашим сценариям использования, и предоставить информацию для наших обсуждений с другими поставщиками браузеров для стандартизации.

Присоединяйтесь к нашей программе раннего предварительного просмотра , чтобы оставить отзыв об идеях встроенного ИИ на ранней стадии и открыть для себя возможности тестирования API-интерфейсов, находящихся в стадии разработки, посредством локального прототипирования.

Присоединяйтесь к группе публичных объявлений разработчиков Chrome AI, чтобы получать уведомления о появлении новых API.

Преимущества встроенного искусственного интеллекта для веб-разработчиков

Благодаря встроенному ИИ ваш браузер предоставляет базовые и экспертные модели и управляет ими.

По сравнению с искусственным интеллектом, встроенным в устройство, встроенный искусственный интеллект предлагает следующие преимущества:

  • Простота развертывания . При распространении моделей браузер учитывает возможности устройства и управляет обновлениями модели. Это означает, что вы не несете ответственности за загрузку или обновление больших моделей по сети. Вам не придется решать вопросы вытеснения хранилища, бюджета оперативной памяти, затрат на обслуживание и других проблем.
  • Доступ к аппаратному ускорению : среда выполнения искусственного интеллекта в браузере оптимизирована для максимально эффективного использования доступного оборудования, будь то графический процессор, NPU или возврат к процессору. Следовательно, ваше приложение может обеспечить максимальную производительность на каждом устройстве.

Преимущества работы на устройстве

Благодаря встроенному подходу ИИ выполнение задач ИИ на устройстве становится тривиальным, что, в свою очередь, дает следующие преимущества:

  • Локальная обработка конфиденциальных данных . Искусственный интеллект на устройстве может улучшить вашу конфиденциальность. Например, если вы работаете с конфиденциальными данными, вы можете предложить пользователям функции искусственного интеллекта со сквозным шифрованием.
  • Быстрый пользовательский опыт . В некоторых случаях отказ от обращения к серверу означает, что вы можете предложить почти мгновенные результаты. Искусственный интеллект на устройстве может стать разницей между жизнеспособной функцией и неоптимальным пользовательским интерфейсом.
  • Расширенный доступ к искусственному интеллекту . Устройства ваших пользователей могут взять на себя часть вычислительной нагрузки в обмен на больший доступ к функциям. Например, если вы предлагаете премиальные функции искусственного интеллекта, вы можете просмотреть эти функции с помощью искусственного интеллекта на устройстве, чтобы потенциальные клиенты могли увидеть преимущества вашего продукта без дополнительных затрат с вашей стороны. Этот гибридный подход также может помочь вам управлять затратами на логические выводы, особенно в отношении часто используемых пользовательских потоков.
  • Использование искусственного интеллекта в автономном режиме . Ваши пользователи могут получить доступ к функциям искусственного интеллекта даже при отсутствии подключения к Интернету. Это означает, что ваши сайты и веб-приложения могут работать как положено в автономном режиме или с переменным подключением.

Гибридный искусственный интеллект: на устройстве и на стороне сервера

Хотя ИИ на устройстве может обрабатывать широкий спектр вариантов использования, существуют определенные варианты использования, которые требуют поддержки на стороне сервера.

Например, вам может потребоваться использовать более крупные модели или поддерживать более широкий спектр платформ и устройств.

Вы можете рассмотреть гибридные подходы в зависимости от:

  • Сложность: конкретные и доступные варианты использования легче поддерживать с помощью искусственного интеллекта на устройстве. В сложных случаях использования рассмотрите возможность реализации на стороне сервера.
  • Устойчивость : по умолчанию используйте серверную часть и используйте устройство на устройстве, когда устройство находится в автономном режиме или имеет нестабильное соединение.
  • Грациозный запасной вариант : внедрение браузеров со встроенным искусственным интеллектом займет время, некоторые модели могут быть недоступны, а старые или менее мощные устройства могут не соответствовать аппаратным требованиям для оптимальной работы всех моделей. Предложите этим пользователям серверный ИИ.

Для моделей Gemini вы можете использовать интеграцию с серверной частью (с Python , Go , Node.js или REST ) ​​или реализовать в своем веб-приложении с помощью нового клиентского SDK Google AI для Интернета .

Архитектура браузера и API

Для поддержки встроенного искусственного интеллекта в Chrome мы создали инфраструктуру для доступа к базовым и экспертным моделям для выполнения на устройстве. Эта инфраструктура уже поддерживает инновационные функции браузера, такие как «Помоги мне писать» , и вскоре станет основой API для искусственного интеллекта на устройствах.

Вы получите доступ к встроенным возможностям искусственного интеллекта в основном с помощью API-интерфейсов задач, таких как API перевода или API суммирования. API-интерфейсы задач предназначены для определения наилучшей модели для задания.

В Chrome эти API созданы для выполнения логических выводов на основе Gemini Nano с тонкой настройкой или экспертной модели. Gemini Nano, предназначенный для локального запуска на большинстве современных устройств, лучше всего подходит для случаев использования, связанных с языком, таких как обобщение, перефразирование или категоризация.

Кроме того, мы намерены предоставить исследовательские API, чтобы вы могли экспериментировать локально и делиться дополнительными вариантами использования.

Например, мы можем предоставить:

  • Prompt API : отправьте произвольную задачу, выраженную на естественном языке, во встроенную модель большого языка (Gemini Nano в Chrome).
  • API тонкой настройки (LoRA) : улучшите производительность встроенного LLM при выполнении задачи, отрегулировав вес модели с помощью точной настройки адаптации низкого ранга .
На этой диаграмме показано, как ваш веб-сайт или приложение может использовать API-интерфейсы задач и исследовательской веб-платформы для доступа к моделям, встроенным в Chrome.

Когда использовать встроенный ИИ

Вот несколько способов, которыми, по нашему мнению, встроенный ИИ может принести пользу вам и вашим пользователям:

  • Потребление контента с помощью искусственного интеллекта : включая обобщение, перевод , ответы на вопросы о некотором контенте, категоризацию и характеристику.
  • Создание контента с поддержкой искусственного интеллекта : например, помощь в написании, корректуре, исправлении грамматики и перефразировании.

Что дальше

Присоединяйтесь к нашей ранней предварительной программе , чтобы поэкспериментировать со встроенными API-интерфейсами искусственного интеллекта на ранней стадии.

А пока вы можете узнать, как использовать Gemini Pro на серверах Google со своими веб-сайтами и веб-приложениями, в нашем кратком руководстве по Google AI JavaScript SDK .