Crux в BigQuery

Узнайте, как структурированы данные CrUX в BigQuery.

Введение

Необработанные данные для отчета Chrome UX Report (CrUX) доступны в BigQuery — базе данных, размещенной в Google Cloud.

CrUX на BigQuery позволяет пользователям напрямую запрашивать полный набор данных, начиная с 2017 года, например, для анализа тенденций, сравнения веб-технологий и сравнительного анализа доменов.

Данные структурированы по ежемесячным выпускам, а также содержат ряд сводных таблиц для обеспечения более быстрого доступа для запросов к данным.

Данные BigQuery лежат в основе панели мониторинга CrUX , которая позволяет визуализировать эти данные без написания SQL-запросов.

Доступ к набору данных

Для использования BigQuery требуется учётная запись Google Cloud и базовые знания SQL. Набор данных CrUX в BigQuery доступен для бесплатного доступа и изучения в пределах бесплатного уровня , который ежемесячно продлевается и предоставляется BigQuery. Кроме того, новые пользователи Google Cloud могут получить регистрационный кредит для покрытия расходов, превышающих бесплатный уровень. Обратите внимание, что для проекта Google Cloud необходимо предоставить данные кредитной карты. См. раздел «Зачем нужна кредитная карта?» .

Если вы впервые используете BigQuery, выполните следующие действия для настройки проекта:

  1. Перейдите в раздел «Создать проект» на консоли Google Cloud .
  2. Дайте новому проекту имя, например «Мой отчет Chrome UX», и нажмите «Создать».
  3. При необходимости укажите платежные данные.
  4. Перейдите к набору данных CrUX в BigQuery.

Теперь вы готовы начать выполнять запросы к набору данных.

Организация проекта

Данные CrUX в BigQuery публикуются во второй вторник следующего месяца. Каждый месяц публикуются в виде новой таблицы в chrome-ux-report.all . Также существует ряд материализованных таблиц, содержащих сводную статистику за каждый месяц.

Подробная схема таблицы

Необработанные таблицы для каждой страны и all наборы данных предоставляются по годам и месяцам.

Необработанные таблицы

Необработанные таблицы имеют следующую схему:

  • origin
  • effective_connection_type
  • form_factor
  • first_paint
  • first_contentful_paint
  • largest_contentful_paint
  • dom_content_loaded
  • onload
  • layout_instability
    • cumulative_layout_shift
  • interaction_to_next_paint
  • round_trip_time
  • navigation_types
    • navigate
    • navigate_cache
    • reload
    • restore
    • back_forward
    • back_forward_cache
    • prerender
  • experimental
    • permission
      • notifications
    • time_to_first_byte
    • popularity

Схема материализованной таблицы

Материализованные таблицы предназначены для упрощения доступа к сводным данным по ряду ключевых измерений. Гистограммы не предоставляются, вместо этого данные о производительности агрегируются в доли по оценке производительности и значению 75-го процентиля. В этом примере показан набор строк из таблицы metrics_summary :

ггггмм источник fast_lcp avg_lcp slow_lcp p75_lcp
202204 https://example.com 0,9056 0,0635 0,0301 1600
202203 https://example.com 0,9209 0,052 0,0274 1400
202202 https://example.com 0,9169 0,0545 0,0284 1500
202201 https://example.com 0,9072 0,0626 0,0298 1500

Это показывает, что в наборе данных 202204 года 90,56% реальных пользовательских впечатлений от https://example.com соответствовали критериям хорошего LCP , а приблизительное значение LCP 75-го процентиля составило 1600 мс. Это немного медленнее, чем в предыдущие месяцы.

Предоставляются четыре материализованные таблицы:

metrics_summary
ключевые показатели по месяцам и происхождению
device_summary
ключевые показатели по месяцам, происхождению и типу устройства
country_summary
ключевые показатели по месяцам, происхождению, типу устройства и стране
origin_summary
список всех источников, включенных в набор данных

metrics_summary

Таблица metrics_summary содержит сводную статистику для каждого источника и каждого ежемесячного набора данных:

yyyymm
Месяц периода сбора данных
origin
URL-адрес исходного сайта
rank
Грубый рейтинг популярности (по состоянию на март 2021 г. )
[small|medium|large]_cls
доля трафика по порогам CLS
[fast|avg|slow]_<metric>
доля трафика по пороговым значениям производительности
[low|medium|high]_rtt
доля трафика по порогам RTT
p75_<metric>
75-й процентиль показателя производительности (миллисекунды)
notification_permission_[accept|deny|ignore|dismiss]
доля поведения разрешения уведомлений
[desktop|phone|tablet]Density
доля трафика по форм-фактору
[_4G|_3G|_2G|slow2G|offline]Density
Доля трафика по эффективному типу соединения (рассчитано на основе гистограмм rtt с февраля 2025 г. , без офлайн-подключений)
navigation_type_[navigate|navigate_cache|reload|restore|back_forward|back_forward_cache|prerender]
доля типов навигации

device_summary

Таблица device_summary содержит агрегированную статистику по месяцам, странам происхождения и устройствам. Помимо столбцов metrics_summary здесь есть:

device
Форм-фактор устройства

country_summary

Таблица country_summary содержит агрегированную статистику по месяцам, странам происхождения и устройствам. Помимо столбцов metrics_summary здесь также есть:

country_code
Двухбуквенный код страны
device
Форм-фактор устройства

origin_summary

Таблица origin_summary содержит список всех источников в наборе данных CrUX; она ежемесячно обновляется последним списком источников в наборе данных и имеет один столбец: origin .

Экспериментальный набор данных

Таблицы в экспериментальном наборе данных являются точными копиями таблиц YYYYMM по умолчанию, но они используют более новые и продвинутые функции BigQuery, такие как разбиение на разделы и кластеризация , которые позволяют писать более быстрые, простые и дешевые запросы.

country

Набор данных experimental.country содержит агрегированные данные из наборов данных country_CC с дополнительным столбцом yyyymm для даты набора данных. Схема идентична схеме необработанных таблиц, но с добавлением столбцов date и country_code , что позволяет выполнять запросы для сравнения данных по странам с течением времени без объединения ежемесячных таблиц.

global

Набор данных experimental.global содержит агрегированные данные из all набора данных с дополнительным столбцом yyyymm для даты набора данных. Схема идентична схеме необработанных таблиц с добавлением даты, что позволяет выполнять запросы для сравнения данных во времени без объединения ежемесячных таблиц.