CrUX w BigQuery

Dowiedz się, jak dane z tego pliku są ustrukturyzowane w BigQuery.

Wprowadzenie

Dane nieprzetworzone, na których opiera się raport o użyteczności Chrome (CrUX), są dostępne w BigQuery, czyli w bazie danych hostowanej w Google Cloud.

Dzięki CrUX w BigQuery użytkownicy mogą bezpośrednio wysyłać zapytania do pełnego zbioru danych obejmującego dane z lat 2017 i starsze, np. aby analizować trendy, porównywać technologie internetowe i porównywać domeny.

Dane są uporządkowane według miesięcznych wersji, a także w wiele tabel podsumowujących, aby ułatwić dostęp do zapytań.

Dane z BigQuery stanowią podstawę panelu Crux, który umożliwia wizualizację tych danych bez konieczności pisania zapytań SQL.

Dostęp do zbioru danych

Korzystanie z BigQuery wymaga konta Google Cloud i podstawowej znajomości języka SQL. Zbiór danych CRUX w BigQuery jest bezpłatny i można go eksplorować do limitów bezpłatnego poziomu, który jest odnawiany co miesiąc i jest udostępniany przez BigQuery. Nowi użytkownicy Google Cloud mogą też kwalifikować się do otrzymania środków na rejestrację na pokrycie wydatków wykraczających poza poziom bezpłatny. Pamiętaj, że musisz podać dane karty kredytowej do projektu Google Cloud. Więcej informacji znajdziesz w sekcji Dlaczego muszę podać dane karty kredytowej?.

Jeśli korzystasz z BigQuery po raz pierwszy, wykonaj te czynności, aby skonfigurować projekt:

  1. W konsoli Google Cloud kliknij Utwórz projekt.
  2. Nadaj nowemu projektowi nazwę, np. „Mój raport UX w Chrome”, i kliknij Utwórz.
  3. W razie potrzeby podaj informacje rozliczeniowe.
  4. Otwórz w BigQuery zbiór danych CRUX.

Możesz teraz zacząć wysyłać zapytania do zbioru danych.

Organizacja projektu

Dane CRUX w BigQuery są udostępniane w drugi wtorek kolejnego miesiąca. Każdy miesiąc jest publikowany jako nowa tabela w sekcji chrome-ux-report.all. Dostępne są też liczne zmaterializowane tabele, które zawierają podsumowanie statystyk za każdy miesiąc.

Szczegółowy schemat tabeli

Tabela z danymi źródłowymi dla każdego kraju i zbioru danych all jest podzielona według roku i miesiąca.

Tabele nieprzetworzone

Tabele nieprzetworzone mają ten schemat:

  • origin
  • effective_connection_type
  • form_factor
  • first_paint
  • first_contentful_paint
  • largest_contentful_paint
  • dom_content_loaded
  • onload
  • layout_instability
    • cumulative_layout_shift
  • interaction_to_next_paint
  • navigation_types
    • navigate
    • navigate_cache
    • reload
    • restore
    • back_forward
    • back_forward_cache
    • prerender
  • experimental
    • permission
      • notifications
    • time_to_first_byte
    • popularity

Schemat tabeli zmaterializowanej

Tabela zagregowana jest udostępniana, aby ułatwić dostęp do danych podsumowujących według kilku kluczowych wymiarów. Nie są wyświetlane żadne histogramy. Zamiast tego dane o skuteczności są agregowane w ułamki według oceny skuteczności i wartości 75 percentyla. W tym przykładzie pokazano kilka przykładowych wierszy z tabeli metrics_summary:

rrrrmm pochodzenie fast_lcp avg_lcp slow_lcp p75_lcp
202204 https://example.com 0,9056 0,0635 0,0301 1600
202203 https://example.com 0,9209 0,052 0,0274 1400
202202 https://example.com 0,9169 0,0545 0,0284 1500
202201 https://example.com 0,9072 0,0626 0,0298 1500

W przypadku zbioru danych 202204 90,56% wrażeń rzeczywistych użytkowników na stronie https://example.com spełniało kryteria dobrej jakości LCP, a przybliżona wartość LCP dla 75 percentyla wynosiła 1600 ms. To nieco wolniejsze tempo niż w poprzednich miesiącach.

Dostępne są 4 tabele zmaterializowane:

metrics_summary
kluczowe dane według miesiąca i źródła
device_summary
kluczowe dane według miesiąca, źródła i typu urządzenia
country_summary
kluczowe dane według miesiąca, pochodzenia, typu urządzenia i kraja
origin_summary
lista wszystkich źródeł zawartych w zbiorze danych

metrics_summary

Tabela metrics_summary zawiera statystyki podsumowujące dotyczące każdego źródła i każdego miesięcznego zbioru danych:

yyyymm
Miesiąc okresu gromadzenia danych
origin
URL witryny źródłowej
rank
Ogólny ranking popularności (stan na marzec 2021 r.)
[small|medium|large]_cls
część ruchu według progów wartości CLS
[fast|avg|slow]_<metric>
część ruchu według progów skuteczności
p75_<metric>
Wartość 75. percentyla danych dotyczących skuteczności (w milisekundach)
notification_permission_[accept|deny|ignore|dismiss]
udział zachowań związanych z uprawnieniami dotyczącymi powiadomień
[desktop|phone|tablet]Density
Udział ruchu według formatu
[_4G|_3G|_2G|slow2G|offline]Density
Udział ruchu według typu połączenia
navigation_type_[navigate|navigate_cache|reload|restore|back_forward|back_forward_cache|prerender]
ułamek typów nawigacji

device_summary

Tabela device_summary zawiera zbiorcze statystyki według miesiąca, pochodzenia, kraju i urządzenia. Oprócz kolumn metrics_summary dostępne są też:

device
Format urządzenia

country_summary

Tabela country_summary zawiera zbiorcze statystyki według miesiąca, pochodzenia, kraju i urządzenia. Oprócz kolumn metrics_summary dostępne są też:

country_code
Dwuliterowy kod kraju
device
Format urządzenia

origin_summary

Tabela origin_summary zawiera listę wszystkich źródeł w zbiorze danych CrUX. Jest ona aktualizowana co miesiąc o najnowszą listę źródeł w zbiorze danych i zawiera 1 kolumnę: origin.

Eksperymentalny zbiór danych

Tabele w eksperymentalnym zbiorze danych są dokładnymi kopiami domyślnych tabel YYYYMM, ale korzystają z nowszych i bardziej zaawansowanych funkcji BigQuery, takich jak partycjonowanie i zagnieżdżanie, które umożliwiają tworzenie szybszych, prostszych i tańszych zapytań.

country

Zbiór danych experimental.country zawiera zagregowane dane ze zbiorów danych country_CC z dodatkową kolumną yyyymm z datą zbioru danych. Schemat jest identyczny jak w tabelach nieprzetworzonych, ale zawiera kolumny data i country_code, co umożliwia porównywanie danych na poziomie kraju w ciągu czasu bez złączania tabel miesięcznych.

global

Zbiór danych experimental.global zawiera zagregowane dane ze zbioru danych all z dodatkową kolumną yyyymm z datą zbioru danych. Schemat jest identyczny jak w tabelach surowych, ale zawiera datę, co umożliwia wykonywanie zapytań porównawczych w czasie bez złączania tabel miesięcznych.