Опубликовано: 22 мая 2025 г.
ИИ меняет подход веб-разработчиков к созданию веб-сайтов и веб-приложений. На конференции Google I/O 2025 мы рассказали о результатах нашей работы за последний год, продемонстрировали, как наши партнёры используют ИИ в интернете, и анонсировали новые встроенные API для ИИ .
Пропустили мероприятие? Хорошие новости: теперь вы можете смотреть выступления по запросу!
Практичный встроенный ИИ с Gemini Nano в Chrome
Наша главная миссия — сделать Chrome и веб умнее для всех разработчиков и пользователей. В этом выступлении Томас Штайнер рассказывает об обновлениях встроенного ИИ , практических примерах его использования и взгляде на наше будущее.
Встроенный ИИ запускает клиентские модели в браузере, что имеет ряд преимуществ:
- Конфиденциально : конфиденциальные данные пользователя остаются на устройстве, не выходя из браузера.
- Офлайн : приложения могут получать доступ к возможностям ИИ даже без подключения к Интернету.
- Производительность : благодаря аппаратному ускорению эти API обеспечивают превосходную производительность.
Ознакомьтесь с примерами кода для каждого из встроенных API ИИ , получите обновленную информацию об их статусе и узнайте, какие компании внедряют эту технологию.
Мультимодальные API
Мы работаем над совершенно новыми мультимодальными API . Это означает, что вы можете спросить Gemini Nano о том, что он «видит» в визуальном контенте или «слышит» в аудиоконтенте. Например, получить предложения по альтернативному тексту для загруженных изображений на блог-платформе, который пользователи смогут дорабатывать и корректировать. Или вы можете попросить Gemini Nano написать описания или транскрипции для подкастов.
Гибридный ИИ
Одна из проблем, с которой сталкиваются разработчики клиентского ИИ, заключается в том, что не все платформы и браузеры соответствуют аппаратным требованиям для запуска модели на устройстве. Gemini и Firebase совместно разработали Firebase Web SDK , чтобы в случае отсутствия клиентских реализаций можно было использовать Gemini Nano на сервере.
Работая с вами
Мы очень рады сотрудничеству со столькими разработчиками над встроенными API для ИИ. Без вас наши усилия были бы невозможны.
- Программа предварительного просмотра : к EPP присоединились более 16 000 разработчиков, которые тестируют новые API, открывают новые варианты использования и предоставляют обратную связь для создания лучшего ИИ для Интернета.
- Хакатоны : Мы провели два хакатона, и вы создали несколько невероятных веб-сайтов и расширений .
Ваша работа ещё не закончена. Продолжайте делиться отзывами, тестировать новые встроенные API, и мы продолжим совершенствовать их. Вы даже можете помочь стандартизировать эти API, присоединившись к группе сообщества W3C по веб-машинному обучению .
Будущее расширений Chrome с Gemini в вашем браузере
Количество расширений на базе ИИ за последние два года удвоилось. Более того, 10% всех расширений, установленных из интернет-магазина Chrome, используют ИИ. В этом докладе Себастьян Бенц приводит практические примеры того, почему расширения Chrome и Gemini представляют собой такое мощное сочетание.
Примеры включают в себя то, как можно сделать браузер более полезным, извлекая и обрабатывая данные с веб-сайтов на клиентском компьютере с помощью недавно запущенного API-интерфейса Chrome.
Демонстрация потенциала новых многомодальных возможностей API Chrome в расширениях Chrome позволяет сделать аудио и изображения более доступными для пользователей.
Взглянуть на будущее браузера, объяснив, как проект Mariner от Google DeepMind использует расширения Chrome и новейшие API Gemini Cloud для создания полноценного браузерного агента.
Изучите возможности использования Gemini в облаке или в браузере в расширениях Chrome, чтобы создать новые возможности просмотра и сделать браузер более полезным.
Примеры и стратегии использования веб-ИИ в реальном мире
Юрико Хирота и Света Гопалакришнан привели реальные примеры того, как компании используют ИИ в Интернете для улучшения своего бизнеса и пользовательского опыта. Независимо от того, использует ли их решение клиентские модели, серверные модели или гибридное решение, важны те захватывающие новые функции и возможности, которые вы предоставляете своим пользователям прямо сейчас.
BILIBILI сделал свои видеотрансляции более интересными благодаря новой функции: комментариям на экране-буллете . Они предлагают комментарии пользователей в режиме реального времени, отображаемые за говорящим. Для этого они используют сегментацию изображений — хорошо изученную концепцию машинного обучения. В результате продолжительность сеанса увеличилась на 30%! Tokopedia упростила процесс проверки продавцов, используя модель распознавания лиц для оценки качества загружаемых фотографий. В результате им удалось сократить количество ручных утверждений почти на 70%.
Vision Nanny, веб-платформа для детей с церебральными нарушениями зрения (ЦВН), предлагает упражнения для стимуляции зрения на базе искусственного интеллекта. Они используют несколько библиотек MediaPipe, включая модель распознавания ориентиров на руках, которая определяет ключевые точки рук на изображении, видео или в режиме реального времени. Пилотный проект с участием 50 детей показал, что Vision Nanny выдает ответы в 5 раз быстрее, чем упражнения для ручной визуальной стимуляции. Терапевты сообщили об экономии в среднем трёх часов на сеанс благодаря отказу от ручной настройки.
В Google Meet реализовано несколько функций на основе искусственного интеллекта: от улучшения освещения до устранения размытости и размытости видео. Главная сложность заключается в том, что эти функции должны работать в режиме реального времени. Именно здесь на помощь приходит WebAssembly (Wasm) , позволяющий задействовать всю мощь центрального процессора компьютера и обеспечить обработку видео в режиме реального времени.
Это лишь несколько реальных примеров использования ИИ в интернете. Несколько других компаний экспериментировали со встроенными API ИИ, некоторые из них поделились своими наработками в тематических исследованиях .
Клиентские веб-агенты ИИ для создания более интеллектуального пользовательского опыта будущего
Джейсон Мэйес рассказал о будущем интернета: веб-агенты ИИ. У интернета есть агентское будущее, которое позволит реализовать возможности ИИ непосредственно в браузере для выполнения полезной работы от вашего имени, выходящей за рамки возможностей больших языковых моделей (LLM).
Клиентский подход обеспечивает повышенную конфиденциальность, сокращение задержек и потенциальную значительную экономию средств. Агенты позволяют модернизировать существующий веб-сайт, выполнять задачи автономно для пользователя, динамически выбирая и используя доступные инструменты (возможно, в цикле), что позволяет агенту выполнять потенциально сложные или многоэтапные задачи.
Агенты могут:
- Планируйте и разделяйте подзадачи , решая более сложные проблемы посредством многошагового планирования, чтобы разбить задачу на логические шаги для ее выполнения.
- Выберите лучшие инструменты , будь то функции, использование API или доступ к хранилищу данных для базовых знаний модели дополненного языка, а затем выполните действия во внешнем мире.
- Сохранение контекстной памяти , основанной на предыдущих выходных данных агента или внешних инструментов. Кратковременная память действует как буфер FIFO для истории контекста, размер которого не превышает размера контекстного окна модели, в отличие от долговременной памяти, где векторная база данных может использоваться для хранения информации, которую можно вызывать по мере необходимости из предыдущих сеансов разговора или других источников данных.
Агенты веб-ИИ разработаны для интеграции с существующими веб-технологиями на JavaScript. В конечном счёте, важно продолжать ускорять наше оборудование для оптимального запуска моделей в браузере. В будущем такие технологии, как WebNN, будут играть ключевую роль в оптимизации выполнения моделей на центральных процессорах, графических процессорах и нейронных процессорах. Учитывая тенденцию к уменьшению размера LLM и постоянное развитие, в будущем их возможности будут только возрастать.
Рассмотрите возможность использования гибридного подхода, сочетающего обработку на устройстве со стратегическими облачными вызовами, чтобы вы могли создавать интеллектуальный, адаптивный и персонализированный пользовательский интерфейс в браузере уже сейчас. Вскоре ваши инвестиции в подход на основе веб-ИИ должны окупиться, поскольку устройства станут более эффективными в работе с LLM.
Следите за новостями Google I/O 2025
Мы опубликовали все доклады Google I/O 2025, включая плейлист, посвящённый веб-разработчикам . Смотрите ещё больше на io.google/2025 .