Obejrzyj nasze wystąpienia dotyczące AI na konferencji I/O 2025

Alexandra Klepper
Alexandra Klepper

Opublikowano: 22 maja 2025 r.

AI zmienia sposób, w jaki deweloperzy tworzą strony i aplikacje internetowe. Podczas Google I/O 2025 opowiedzieliśmy o tym, nad czym pracowaliśmy w ciągu ostatniego roku, pokazaliśmy, jak nasi partnerzy wykorzystują AI w internecie, i ogłosiliśmy nowe wbudowane interfejsy AI API.

Nie udało Ci się wziąć udziału w wydarzeniu? Mamy dobrą wiadomość – teraz możesz obejrzeć prezentacje na żądanie.

Praktyczna wbudowana AI z Gemini Nano w Chrome

Naszą główną misją jest sprawienie, aby Chrome i internet były bardziej inteligentne dla wszystkich deweloperów i użytkowników. W tej prezentacji Thomas Steiner opowiada o nowościach w zakresie wbudowanej AI, praktycznych przypadkach użycia i naszej przyszłości.

Wbudowana AI uruchamia modele po stronie klienta w przeglądarce, co ma kilka zalet:

  • Prywatność: wrażliwe dane użytkownika pozostają na urządzeniu i nigdy nie opuszczają przeglądarki.
  • Działanie offline: aplikacje mogą korzystać z funkcji AI nawet bez połączenia z internetem.
  • Wydajność: dzięki akceleracji sprzętowej te interfejsy API zapewniają doskonałą wydajność.

Zapoznaj się z przykładami kodu dla każdego z wbudowanych interfejsów AI API, dowiedz się, na jakim etapie są prace nad nimi, i zobacz, które firmy wdrażają tę technologię.

Interfejsy multimodalne API

Pracujemy nad zupełnie nowymi interfejsami multimodalnymi API. Oznacza to, że możesz zapytać model o to, co „widzi” w treściach wizualnych lub „słyszy” w treściach audio. Możesz na przykład otrzymywać sugestie dotyczące tekstu alternatywnego do przesyłanych obrazów na platformie blogowej, które użytkownicy mogą dopracowywać i modyfikować. Możesz też poprosić Gemini Nano o napisanie opisów lub transkrypcji podcastów.

Hybrydowa AI

Jednym z wyzwań, przed którymi stają deweloperzy w przypadku AI po stronie klienta, jest to, że nie wszystkie platformy i przeglądarki spełniają wymagania sprzętowe do uruchamiania modelu na urządzeniu. Gemini i Firebase nawiązały współpracę, aby stworzyć pakiet Firebase Web SDK . Dzięki temu, gdy implementacje po stronie klienta są niedostępne, możesz wrócić do Gemini Nano na serwerze.

Współpraca z Tobą

Cieszymy się, że mogliśmy współpracować z tak wieloma deweloperami nad wbudowanymi interfejsami AI API. Bez Was nasze wysiłki nie byłyby możliwe.

Twoja praca się nie skończyła. Nadal przekazuj nam opinie i testuj nowe wbudowane interfejsy API, a my będziemy je ulepszać. Możesz nawet pomóc w standaryzacji tych interfejsów API, dołączając do grupy Web Machine Learning Community Group w W3C.

Przyszłość rozszerzeń Chrome z Gemini w przeglądarce

Liczba rozszerzeń opartych na AI podwoiła się w ciągu ostatnich 2 lat. W rzeczywistości 10% wszystkich rozszerzeń zainstalowanych ze sklepu Chrome Web Store korzysta z AI. W tej prezentacji Sebastian Benz podaje praktyczne przykłady, dlaczego rozszerzenia Chrome i Gemini to tak potężne połączenie.

Przykłady obejmują m.in. to, jak możesz sprawić, aby przeglądarka była bardziej przydatna, wyodrębniając i przetwarzając dane ze stron internetowych po stronie klienta za pomocą nowo uruchomionego interfejsu Chrome Prompt API.

Oprócz tego pokazujemy potencjał nowych funkcji multimodalnych interfejsu Chrome Prompt API w rozszerzeniach Chrome, które ułatwiają użytkownikom dostęp do dźwięku i obrazów.

Przyglądamy się też przyszłości przeglądania, wyjaśniając, jak projekt Mariner Google DeepMind wykorzystuje rozszerzenia Chrome i najnowsze interfejsy Gemini Cloud API do tworzenia w pełni funkcjonalnego agenta przeglądarki.

Poznaj potencjał korzystania z Gemini w chmurze lub w przeglądarce w rozszerzeniach Chrome, aby tworzyć nowe sposoby przeglądania i sprawić, aby przeglądarka była bardziej przydatna.

Przypadki użycia i strategie AI w internecie w rzeczywistym świecie

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota i Swetha Gopalakrishnan przedstawiły przykłady firm, które wykorzystują AI w internecie, aby ulepszać swoje firmy i wrażenia użytkowników.Niezależnie od tego, czy ich rozwiązanie korzysta z modeli po stronie klienta, po stronie serwera czy z rozwiązania hybrydowego, najważniejsze są nowe funkcje, które udostępniasz użytkownikom już teraz.

BILIBILI zwiększyło zaangażowanie w transmisjach wideo dzięki nowej funkcji: komentarze na ekranie. Umożliwiają one wyświetlanie komentarzy użytkowników w czasie rzeczywistym w filmie, za mówcą. W tym celu wykorzystują segmentację obrazu, dobrze znaną koncepcję uczenia maszynowego. Dzięki temu czas trwania sesji wzrósł o 30%. Tokopedia zmniejszyła trudności w procesie weryfikacji sprzedawcy, używając modelu wykrywania twarzy do oceny jakości przesyłanych zdjęć. Dzięki temu zmniejszyła liczbę ręcznych zatwierdzeń o prawie 70%.

Vision Nanny, platforma internetowa dla dzieci z korowym uszkodzeniem wzroku, oferuje oparte na AI ćwiczenia stymulujące wzrok. Korzysta z wielu bibliotek MediaPipe, w tym z modelu wykrywania punktów orientacyjnych dłoni, który lokalizuje kluczowe punkty dłoni na obrazie, w filmie lub w czasie rzeczywistym. Projekt pilotażowy z udziałem 50 dzieci wykazał, że Vision Nanny zapewniała odpowiedzi 5 razy szybciej niż ręczne ćwiczenia stymulujące wzrok. Terapeuci zgłosili, że dzięki wyeliminowaniu ręcznej konfiguracji oszczędzają średnio 3 godziny na sesję.

Google Meet ma kilka funkcji opartych na AI, od poprawy oświetlenia po zmniejszenie rozmycia i rozmazania obrazu. Największym wyzwaniem jest to, że te funkcje muszą działać w czasie rzeczywistym. W tym miejscu pojawia się WebAssembly (Wasm), który umożliwia wykorzystanie pełnej mocy procesora komputera i przetwarzanie obrazu wideo w czasie rzeczywistym.

To tylko kilka przykładów wykorzystania AI w internecie w rzeczywistym świecie. Kilka innych firm eksperymentowało z wbudowanymi interfejsami AI API. Niektóre z nich podzieliły się swoimi pracami w studiach przypadków.

Agenty AI po stronie klienta w internecie, które pozwalają tworzyć inteligentniejsze wrażenia użytkowników w przyszłości

Jason Mayes opowiedział o przyszłości internetu: agentach AI w internecie. Internet ma przyszłość opartą na agentach, którzy udostępniają funkcje AI bezpośrednio w przeglądarce, aby wykonywać przydatne zadania w Twoim imieniu, wykraczając poza możliwości dużych modeli językowych (LLM).

Podejście po stronie klienta zapewnia większą prywatność, mniejsze opóźnienie i potencjalne znaczne oszczędności kosztów. Agenty umożliwiają ulepszenie dotychczasowej witryny, aby wykonywać zadania autonomicznie dla użytkownika, dynamicznie wybierając i używając udostępnionych narzędzi – potencjalnie w pętli – co pozwala agentowi wykonywać potencjalnie złożone lub wieloetapowe zadania.

Agenty mogą:

  • Planować i dzielić zadania na podzadania, rozwiązując bardziej złożone problemy dzięki wieloetapowemu planowaniu, które pozwala podzielić zadanie na logiczne kroki.
  • Wybierać najlepsze narzędzia, takie jak funkcje, użycie interfejsu API lub dostęp do magazynu danych aby rozszerzyć podstawową wiedzę modelu językowego, a następnie wykonywać działania w świecie zewnętrznym.
  • Zachowywać pamięć opartą na kontekście na podstawie wcześniejszych wyników agenta lub narzędzi zewnętrznych. Pamięć krótkotrwała działa jak bufor FIFO historii kontekstu do rozmiaru okna kontekstu modelu, natomiast pamięć długotrwała umożliwia używanie bazy danych wektorowych do przechowywania informacji, które można w razie potrzeby przywołać z poprzednich sesji rozmowy lub innych źródeł danych.

Agenty AI w internecie są zaprojektowane tak, aby integrować się z dotychczasowymi technologiami internetowymi w JavaScript. Ostatecznie ważne jest, abyśmy nadal przyspieszali nasz sprzęt, aby jak najlepiej uruchamiać modele w przeglądarce. W przyszłości technologia taka jak WebNN będzie odgrywać kluczową rolę w optymalizacji wykonywania modeli na procesorach, procesorach graficznych i procesorach NPU. Wraz z trendem do mniejszych LLM i ciągłym postępem będzie to tylko zyskiwać na znaczeniu.

Rozważ użycie podejścia hybrydowego, które łączy przetwarzanie na urządzeniu ze strategicznymi wywołaniami w chmurze, aby już teraz tworzyć inteligentne, responsywne i spersonalizowane wrażenia użytkowników w przeglądarce. Wkrótce zwrot z inwestycji w podejście Web AI powinien się opłacić, ponieważ urządzenia będą coraz lepiej radzić sobie z uruchamianiem LLM.

Podsumowanie Google I/O 2025

Udostępniliśmy wszystkie prezentacje z Google I/O 2025, w tym playlistę dedykowaną deweloperom. Więcej informacji znajdziesz na stronie io.google/2025.