Что такое искусственный интеллект?

Александра Клеппер
Alexandra Klepper

Искусственный интеллект (ИИ) включает в себя множество сложных, новых технологий, которые когда-то требовали участия человека, а теперь могут выполняться компьютером. В широком смысле ИИ — это нечеловеческая программа или модель, демонстрирующая широкий спектр навыков решения проблем и творчества.

Аббревиатура ИИ часто используется взаимозаменяемо для обозначения различных типов технологий в области искусственного интеллекта, но они могут значительно различаться по своему масштабу.

Существует ряд терминов и понятий , определяющих искусственный интеллект и машинное обучение, которые могут оказаться полезными. Здесь вы найдете термины, часто встречающиеся в документации Chrome, и, что особенно важно, термины, относящиеся к клиентскому ИИ.

Искусственный интеллект на стороне клиента

В то время как большинство функций ИИ в веб-среде основаны на серверах, ИИ на стороне клиента работает в браузере пользователя и выполняет вычисления на устройстве пользователя. Это имеет множество преимуществ , включая меньшую задержку, снижение затрат на создание функций, повышение конфиденциальности пользователей и доступ в автономном режиме.

Искусственный интеллект на стороне клиента использует более мелкие, оптимизированные модели, оптимизированные для повышения производительности . В некоторых случаях такие модели могут превосходить более крупные серверные модели. Оцените свой сценарий использования, чтобы определить, какое решение вам подходит.

Встроенный ИИ

Благодаря встроенному искусственному интеллекту ваш веб-сайт взаимодействует с локальным процессором через API браузера. Встроенная модель браузера отправляет ответ, который API возвращает вашему веб-сайту.

Встроенный ИИ — это форма клиентского ИИ, при которой более мелкие модели встраиваются в браузер. Для Chrome это включает модели Gemini Nano и экспертные модели. После загрузки этих моделей все веб-сайты и веб-приложения, использующие встроенный ИИ, могут пропустить этап загрузки и сразу перейти к выполнению функций и локальному выводу результатов.

Встроенные API для ИИ предназначены для выполнения вывода на основе подходящей для задачи модели. Например, API Prompt выполняет вывод на основе языковой модели, а API Translator — на основе встроенной экспертной модели.

Искусственный интеллект на стороне сервера

Искусственный интеллект на стороне сервера включает в себя облачные сервисы ИИ. Представьте себе Gemini 1.5 Pro, работающий в облаке. Такие модели, как правило, намного больше и мощнее. Это особенно верно для больших языковых моделей .

Гибридный ИИ

Под гибридным ИИ понимается любое решение, включающее как клиентский, так и серверный компоненты. Например:

  • Клиентские модели, предусматривающие резервный вариант — серверные модели, разработанные для задач, которые не могут быть эффективно выполнены на самом устройстве.
    • Возможно, на устройстве не хватает ресурсов.
    • Данная модель или API доступны только в определенных средах.
  • Модель, разделённая на клиентскую и серверную части, обеспечивает безопасность.
    • Например, можно разделить модель таким образом, чтобы 75% выполнения происходило на стороне клиента, а оставшиеся 25% — на сервере. Это дает преимущества на стороне клиента , позволяя при этом части модели работать вне устройства, сохраняя таким образом приватность.

Используя API Prompt , вы можете настроить гибридную архитектуру с помощью Firebase AI Logic .

Генеративный ИИ

Генеративный ИИ — это форма машинного обучения, которая помогает пользователям создавать контент, который кажется знакомым и имитирует человеческое творчество. Генеративный ИИ использует языковые модели для организации данных и создания или изменения текста, изображений, видео и аудио на основе предоставленного контекста. Генеративный ИИ выходит за рамки сопоставления шаблонов и прогнозирования.

Большая языковая модель (БЯМ) имеет множество (до миллиардов) параметров, которые можно использовать для выполнения самых разнообразных задач, таких как генерация, классификация или обобщение текста или изображений.

Небольшая языковая модель (SLM) имеет значительно меньше параметров для выполнения аналогичных задач и может использоваться на стороне клиента.

Обработка естественного языка (NLP)

Обработка естественного языка — это класс машинного обучения, который фокусируется на том, чтобы помочь компьютерам понимать человеческий язык, от правил конкретного языка до особенностей, диалектов и сленга, используемых отдельными людьми.

Агент или агент искусственного интеллекта

Агент — это программное обеспечение, которое автономно планирует и выполняет ряд действий для завершения задачи от имени пользователя, адаптируясь при этом к изменениям в окружающей среде. Действия могут включать функции API или запросы к базе данных, выполняемые на веб-странице или через стороннее приложение, например, Project Mariner .

Чат-бот по своей сути не является агентом. В то время как чат-бот отвечает на сообщения мессенджера (будь то человек или кто-либо другой) и использует модель для генерации контента, например, ответов на вопросы, агент взаимодействует с инструментами или базой данных для выполнения задачи.

Ввод и вывод

Входные и выходные данные модели могут быть представлены в различных модальностях, включая текст, изображение, аудио и видео. Модель может принимать только одну модальность или несколько ( мультимодальные модели ). Важно определить, какие модальности вам необходимы, прежде чем выбирать модель.

Ввод и вывод данных могут осуществляться как в виде потоковых фрагментов, так и по запросу.

Стриминг

Потоковая передача разбивает отправляемый или получаемый ресурс на более мелкие фрагменты, обеспечивая результаты в режиме реального времени. Выходные данные постоянно корректируются по мере добавления и изменения входных данных.

Это распространенный метод, используемый браузерами для приема медиафайлов, таких как буферизация видео или частичная загрузка изображений.

Вывод на основе запроса

При обработке выходных данных по запросу (или «непотоковой обработке») модель ожидает генерации всех входных данных, обрабатывает эти данные целиком, а затем выдает выходные данные.

Например, в контексте окна чата, вместо того чтобы модальное окно формировало ответ по мере ввода пользователем текста, модель ждет, пока пользователь нажмет кнопку «Отправить». После отправки сообщения модель учитывает весь введенный текст и затем отвечает.

Дополнительные ресурсы

Если вы новичок в области ИИ в веб-разработке, ознакомьтесь с нашей подборкой ресурсов web.dev по ИИ .

,

Александра Клеппер
Alexandra Klepper

Искусственный интеллект (ИИ) включает в себя множество сложных, новых технологий, которые когда-то требовали участия человека, а теперь могут выполняться компьютером. В широком смысле ИИ — это нечеловеческая программа или модель, демонстрирующая широкий спектр навыков решения проблем и творчества.

Аббревиатура ИИ часто используется взаимозаменяемо для обозначения различных типов технологий в области искусственного интеллекта, но они могут значительно различаться по своему масштабу.

Существует ряд терминов и понятий , определяющих искусственный интеллект и машинное обучение, которые могут оказаться полезными. Здесь вы найдете термины, часто встречающиеся в документации Chrome, и, что особенно важно, термины, относящиеся к клиентскому ИИ.

Искусственный интеллект на стороне клиента

В то время как большинство функций ИИ в веб-среде основаны на серверах, ИИ на стороне клиента работает в браузере пользователя и выполняет вычисления на устройстве пользователя. Это имеет множество преимуществ , включая меньшую задержку, снижение затрат на создание функций, повышение конфиденциальности пользователей и доступ в автономном режиме.

Искусственный интеллект на стороне клиента использует более мелкие, оптимизированные модели, оптимизированные для повышения производительности . В некоторых случаях такие модели могут превосходить более крупные серверные модели. Оцените свой сценарий использования, чтобы определить, какое решение вам подходит.

Встроенный ИИ

Благодаря встроенному искусственному интеллекту ваш веб-сайт взаимодействует с локальным процессором через API браузера. Встроенная модель браузера отправляет ответ, который API возвращает вашему веб-сайту.

Встроенный ИИ — это форма клиентского ИИ, при которой более мелкие модели встраиваются в браузер. Для Chrome это включает модели Gemini Nano и экспертные модели. После загрузки этих моделей все веб-сайты и веб-приложения, использующие встроенный ИИ, могут пропустить этап загрузки и сразу перейти к выполнению функций и локальному выводу результатов.

Встроенные API для ИИ предназначены для выполнения вывода на основе подходящей для задачи модели. Например, API Prompt выполняет вывод на основе языковой модели, а API Translator — на основе встроенной экспертной модели.

Искусственный интеллект на стороне сервера

Искусственный интеллект на стороне сервера включает в себя облачные сервисы ИИ. Представьте себе Gemini 1.5 Pro, работающий в облаке. Такие модели, как правило, намного больше и мощнее. Это особенно верно для больших языковых моделей .

Гибридный ИИ

Под гибридным ИИ понимается любое решение, включающее как клиентский, так и серверный компоненты. Например:

  • Клиентские модели, предусматривающие резервный вариант — серверные модели, разработанные для задач, которые не могут быть эффективно выполнены на самом устройстве.
    • Возможно, на устройстве не хватает ресурсов.
    • Данная модель или API доступны только в определенных средах.
  • Модель, разделённая на клиентскую и серверную части, обеспечивает безопасность.
    • Например, можно разделить модель таким образом, чтобы 75% выполнения происходило на стороне клиента, а оставшиеся 25% — на сервере. Это дает преимущества на стороне клиента , позволяя при этом части модели работать вне устройства, сохраняя таким образом приватность.

Используя API Prompt , вы можете настроить гибридную архитектуру с помощью Firebase AI Logic .

Генеративный ИИ

Генеративный ИИ — это форма машинного обучения, которая помогает пользователям создавать контент, который кажется знакомым и имитирует человеческое творчество. Генеративный ИИ использует языковые модели для организации данных и создания или изменения текста, изображений, видео и аудио на основе предоставленного контекста. Генеративный ИИ выходит за рамки сопоставления шаблонов и прогнозирования.

Большая языковая модель (БЯМ) имеет множество (до миллиардов) параметров, которые можно использовать для выполнения самых разнообразных задач, таких как генерация, классификация или обобщение текста или изображений.

Небольшая языковая модель (SLM) имеет значительно меньше параметров для выполнения аналогичных задач и может использоваться на стороне клиента.

Обработка естественного языка (NLP)

Обработка естественного языка — это класс машинного обучения, который фокусируется на том, чтобы помочь компьютерам понимать человеческий язык, от правил конкретного языка до особенностей, диалектов и сленга, используемых отдельными людьми.

Агент или агент искусственного интеллекта

Агент — это программное обеспечение, которое автономно планирует и выполняет ряд действий для завершения задачи от имени пользователя, адаптируясь при этом к изменениям в окружающей среде. Действия могут включать функции API или запросы к базе данных, выполняемые на веб-странице или через стороннее приложение, например, Project Mariner .

Чат-бот по своей сути не является агентом. В то время как чат-бот отвечает на сообщения мессенджера (будь то человек или кто-либо другой) и использует модель для генерации контента, например, ответов на вопросы, агент взаимодействует с инструментами или базой данных для выполнения задачи.

Ввод и вывод

Входные и выходные данные модели могут быть представлены в различных модальностях, включая текст, изображение, аудио и видео. Модель может принимать только одну модальность или несколько ( мультимодальные модели ). Важно определить, какие модальности вам необходимы, прежде чем выбирать модель.

Ввод и вывод данных могут осуществляться как в виде потоковых фрагментов, так и по запросу.

Стриминг

Потоковая передача разбивает отправляемый или получаемый ресурс на более мелкие фрагменты, обеспечивая результаты в режиме реального времени. Выходные данные постоянно корректируются по мере добавления и изменения входных данных.

Это распространенный метод, используемый браузерами для приема медиафайлов, таких как буферизация видео или частичная загрузка изображений.

Вывод на основе запроса

При обработке выходных данных по запросу (или «непотоковой обработке») модель ожидает генерации всех входных данных, обрабатывает эти данные целиком, а затем выдает выходные данные.

Например, в контексте окна чата, вместо того чтобы модальное окно формировало ответ по мере ввода пользователем текста, модель ждет, пока пользователь нажмет кнопку «Отправить». После отправки сообщения модель учитывает весь введенный текст и затем отвечает.

Дополнительные ресурсы

Если вы новичок в области ИИ в веб-разработке, ознакомьтесь с нашей подборкой ресурсов web.dev по ИИ .