Obejrzyj nasze wystąpienia dotyczące AI na konferencji I/O 2025

Alexandra Klepper
Alexandra Klepper

Data publikacji: 22 maja 2025 r.

AI zmienia sposób, w jaki programiści tworzą strony i aplikacje internetowe. Podczas konferencji Google I/O 2025 r. przedstawiliśmy nasze osiągnięcia z ostatniego roku, pokazaliśmy, jak nasi partnerzy wykorzystują AI w internecie, i ogłosiliśmy nowe wbudowane interfejsy API AI.

Nie udało Ci się wziąć udziału w wydarzeniu? Mamy dobrą wiadomość – teraz możesz obejrzeć wystąpienia na żądanie.

Praktyczna wbudowana AI z Gemini Nano w Chrome

Naszą podstawową misją jest sprawienie, aby Chrome i internet były bardziej inteligentne dla wszystkich deweloperów i użytkowników. W tym wystąpieniu Thomas Steiner przedstawia aktualizacje wbudowanej AI, praktyczne przypadki użycia i nasze plany na przyszłość.

Wbudowana AI uruchamia modele po stronie klienta w przeglądarce, co ma kilka zalet:

  • Prywatne: dane wrażliwe użytkownika pozostają na urządzeniu i nigdy nie muszą opuszczać przeglądarki.
  • Offline: aplikacje mogą korzystać z funkcji AI nawet bez połączenia z internetem.
  • Wydajne: dzięki akceleracji sprzętowej te interfejsy API zapewniają doskonałą wydajność.

Zapoznaj się z przykładowym kodem każdego z wbudowanych interfejsów AI API, sprawdź ich stan i zobacz, które firmy wdrażają tę technologię.

Interfejsy API multimodalne

Pracujemy nad zupełnie nowymi interfejsami API. Oznacza to, że możesz zapytać Gemini Nano o to, co „widzi” w treściach wizualnych lub „słyszy” w treściach audio. Możesz na przykład otrzymywać sugestie dotyczące tekstu alternatywnego do przesłanych obrazów na platformie blogowej, które użytkownicy mogą dopracowywać i modyfikować. Możesz też poprosić Gemini Nano o napisanie opisów lub transkrypcji podcastów.

Hybrydowa AI

Jednym z problemów, z jakimi borykają się programiści w przypadku AI po stronie klienta, jest to, że nie wszystkie platformy i przeglądarki spełniają wymagania sprzętowe, aby uruchomić model na urządzeniu. Gemini i Firebase współpracowały przy tworzeniu pakietu Firebase Web SDK, aby w przypadku niedostępności implementacji po stronie klienta można było wrócić do Gemini Nano na serwerze.

Współpraca z Tobą

Cieszymy się, że mogliśmy współpracować z tak wieloma deweloperami nad wbudowanymi interfejsami API AI. Bez Ciebie nasze działania nie byłyby możliwe.

  • Program wczesnego dostępu: do programu EPP dołączyło ponad 16 tys. deweloperów, którzy testują nowe interfejsy API, odkrywają nowe przypadki użycia i przekazują opinie, aby tworzyć lepszą AI dla internetu.
  • Hackathony: zorganizowaliśmy 2 hackathony, podczas których powstały niesamowite strony internetowe i rozszerzenia.

Twoja praca się nie skończyła. Dziel się z nami opiniami i testuj nowe wbudowane interfejsy API, a my będziemy je ulepszać. Możesz nawet pomóc w standaryzacji tych interfejsów API, dołączając do grupy społecznościowej Web Machine Learning w W3C.

Przyszłość rozszerzeń do Chrome z Gemini w przeglądarce

Liczba rozszerzeń opartych na AI podwoiła się w ciągu ostatnich 2 lat. W rzeczywistości 10% wszystkich rozszerzeń zainstalowanych z Chrome Web Store korzysta z AI. W tym wystąpieniu Sebastian Benz podaje praktyczne przykłady, które pokazują, dlaczego rozszerzenia do Chrome i Gemini to tak potężne połączenie.

Przykłady obejmują m.in. sposób, w jaki możesz zwiększyć przydatność przeglądarki, wyodrębniając i przetwarzając dane ze stron internetowych na urządzeniu klienta za pomocą nowo wprowadzonego interfejsu Prompt API w Chrome.

za pokazanie potencjału nowych funkcji multimodalnych interfejsu API promptów Chrome w rozszerzeniach do Chrome, które zwiększają dostępność dźwięku i obrazów dla użytkowników;

Przyglądamy się przyszłości przeglądania, wyjaśniając, jak Project Mariner od Google DeepMind wykorzystuje rozszerzenia Chrome i najnowsze interfejsy Gemini Cloud API do tworzenia w pełni funkcjonalnego agenta przeglądarki.

Poznaj możliwości korzystania z Gemini w chmurze lub w przeglądarcerozszerzeniach Chrome, aby tworzyć nowe sposoby przeglądania i zwiększać przydatność przeglądarki.

Zastosowania i strategie związane z AI w internecie w rzeczywistym świecie

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota i Swetha Gopalakrishnan przedstawiły przykłady firm, które używają AI w internecie, aby ulepszać swoje usługi i zwiększać komfort użytkowników.Niezależnie od tego, czy ich rozwiązanie korzysta z modeli po stronie klienta, po stronie serwera czy z rozwiązania hybrydowego, najważniejsze są nowe funkcje, które możesz udostępnić użytkownikom już teraz.

BILIBILI zwiększył zaangażowanie widzów dzięki nowej funkcji: komentarzom w formie pocisków. Wyświetlają one komentarze użytkowników w czasie rzeczywistym, które są renderowane za mówcą. W tym celu wykorzystują segmentację obrazu, czyli dobrze znaną koncepcję uczenia maszynowego. W rezultacie czas trwania sesji wydłużył się o 30%. Tokopedia zmniejszyła trudności w procesie weryfikacji sprzedawców, korzystając z modelu wykrywania twarzy, aby ocenić jakość przesyłanych zdjęć. W efekcie zmniejszyli liczbę ręcznych zatwierdzeń o prawie 70%.

Vision Nanny to platforma internetowa dla dzieci z korowym uszkodzeniem wzroku, która oferuje oparte na AI aktywności stymulujące wzrok. Korzystają z wielu bibliotek MediaPipe, w tym z modelu wykrywania punktów orientacyjnych dłoni, który lokalizuje kluczowe punkty dłoni na obrazie, w filmie lub w czasie rzeczywistym. Badanie pilotażowe z udziałem 50 dzieci wykazało, że Vision Nanny udziela odpowiedzi 5 razy szybciej niż ręczne czynności stymulujące wzrok. Terapeuci zgłaszają, że dzięki wyeliminowaniu ręcznej konfiguracji oszczędzają średnio 3 godziny na sesję.

Google Meet ma kilka funkcji opartych na AI, które poprawiają oświetlenie i zmniejszają rozmycie obrazu. Największym wyzwaniem jest to, że te funkcje muszą działać w czasie rzeczywistym. W tym celu wykorzystuje się WebAssembly (Wasm), aby w pełni wykorzystać moc procesora komputera i umożliwić przetwarzanie wideo w czasie rzeczywistym.

To tylko kilka przykładów zastosowania AI w internecie. Kilka innych firm eksperymentowało z wbudowanymi interfejsami API AI. Niektóre z nich podzieliły się wynikami swojej pracy w studiach przypadku.

Agenci AI w internecie po stronie klienta, którzy pomogą tworzyć inteligentniejsze funkcje dla użytkowników

Jason Mayes opowiedział o przyszłości internetu: agentach internetowych AI. Internet ma przed sobą przyszłość opartą na agentach, którzy będą wprowadzać funkcje AI bezpośrednio do przeglądarki, aby wykonywać przydatne zadania w Twoim imieniu, wykraczając poza możliwości dużych modeli językowych (LLM).

Podejście po stronie klienta zapewnia większą prywatność, mniejsze opóźnienia i potencjalne znaczne oszczędności. Agenty umożliwiają ulepszenie istniejącej witryny, aby mogła samodzielnie wykonywać zadania dla użytkownika, dynamicznie wybierając i używając udostępnionych narzędzi – potencjalnie w pętli – co pozwala agentowi wykonywać potencjalnie złożone lub wieloetapowe zadania.

Przedstawiciele mogą:

  • Planowanie i dzielenie podzadań, rozwiązywanie bardziej złożonych problemów poprzez wieloetapowe planowanie, które dzieli zadanie na logiczne kroki do wykonania.
  • Wybiera najlepsze narzędzia, takie jak funkcje, użycie interfejsu API lub dostęp do bazy danych, aby rozszerzyć podstawową wiedzę modelu językowego, a następnie wykonuje działania w świecie zewnętrznym.
  • Zachowuj pamięć kontekstową na podstawie wcześniejszych wyników działania agenta lub narzędzi zewnętrznych. Pamięć krótkotrwała działa jak bufor FIFO historii kontekstu o rozmiarze okna kontekstowego modelu, a pamięć długotrwała wykorzystuje bazę danych wektorowych do przechowywania informacji, które można w razie potrzeby przywołać z poprzednich sesji rozmowy lub innych źródeł danych.

Agenci AI w internecie są zaprojektowani tak, aby można było ich zintegrować z istniejącymi technologiami internetowymi w JavaScript. Ostatecznie ważne jest, abyśmy nadal przyspieszali działanie naszego sprzętu, aby jak najlepiej uruchamiać modele w przeglądarce. W przyszłości technologia taka jak WebNN będzie odgrywać kluczową rolę w optymalizacji wykonywania modeli na procesorach CPU, GPU i NPU. W przyszłości, wraz z trendem w kierunku mniejszych modeli LLM i ciągłym rozwojem technologii, ta funkcja będzie jeszcze bardziej przydatna.

Rozważ zastosowanie podejścia hybrydowego, które łączy przetwarzanie na urządzeniu ze strategicznymi wywołaniami chmury. Dzięki temu możesz już teraz tworzyć w przeglądarce inteligentne, responsywne i spersonalizowane środowiska użytkownika. Wkrótce inwestycja w podejście Web AI powinna się zwrócić, ponieważ urządzenia będą miały większe możliwości uruchamiania LLM.

Podsumowanie konferencji Google I/O 2025

Udostępniliśmy wszystkie prezentacje z Google I/O 2025, w tym playlistę poświęconą deweloperom stron internetowych. Więcej informacji znajdziesz na stronie io.google/2025.