Cómo usar el conjunto de datos de BigQuery de CrUX

Los datos sin procesar del Informe sobre la UX de Chrome (CrUX) están disponibles en BigQuery, una base de datos de Google Cloud. Para usar BigQuery, se requiere un proyecto de GCP y conocimientos básicos de SQL.

En esta guía, aprenderás a usar BigQuery para escribir consultas en el conjunto de datos de CrUX para extraer resultados útiles sobre el estado de las experiencias del usuario en la Web:

  • Comprender cómo están organizados los datos
  • Escribe una consulta básica para evaluar el rendimiento de un origen
  • Escribe una consulta avanzada para hacer un seguimiento del rendimiento en el tiempo

Organización de los datos

Comienza observando una consulta básica:

SELECT COUNT(DISTINCT origin) FROM `chrome-ux-report.all.202206`

Para ejecutar la consulta, ingrésala en el editor de consultas y presiona “Ejecutar consulta” :

Ingresa una consulta simple en el editor y presiona Ejecutar.

Esta consulta tiene dos partes:

  • SELECT COUNT(DISTINCT origin) significa consultar la cantidad de orígenes en la tabla. En términos generales, dos URL forman parte del mismo origen si comparten el mismo esquema, host y puerto.

  • FROM chrome-ux-report.all.202206 especifica la dirección de la tabla de origen, que consta de tres partes:

    • El nombre del proyecto de Cloud, chrome-ux-report, en el que se organizan todos los datos de CrUX
    • El conjunto de datos all, que representa datos de todos los países
    • La tabla 202206, que muestra el año y el mes de los datos en formato AAAAMM

También hay conjuntos de datos para cada país. Por ejemplo, chrome-ux-report.country_ca.202206 representa solo los datos de la experiencia del usuario que se originan en Canadá.

Dentro de cada conjunto de datos hay tablas para cada mes desde 201710. Se publican regularmente nuevas tablas para el mes calendario anterior.

La estructura de las tablas de datos (también conocida como el esquema) contiene lo siguiente:

  • El origen, por ejemplo, origin = 'https://www.example.com', que representa la distribución global de la experiencia del usuario en todas las páginas del sitio web
  • Es la velocidad de conexión en el momento en que se carga la página, por ejemplo, effective_connection_type.name = '4G'.
  • El tipo de dispositivo, por ejemplo form_factor.name = 'desktop'
  • Las métricas de UX en sí
    • primer_pintura (FP)
    • first_contentful_Paint (FCP)
    • dom_content_loading (DCL)
    • Onload (OL)
    • experimental.first_input_delay (FID)

Los datos para cada métrica se organizan como un array de objetos. En la notación JSON, first_contentful_paint.histogram.bin se vería similar a lo siguiente:

[
    {"start": 0, "end": 100, "density": 0.1234},
    {"start": 100, "end": 200, "density": 0.0123},
    ...
]

Cada intervalo contiene un tiempo de inicio y finalización en milisegundos, y una densidad que representa el porcentaje de experiencias del usuario dentro de ese intervalo de tiempo. En otras palabras, el 12.34% de las experiencias de FCP para este origen, velocidad de conexión y tipo de dispositivo hipotéticos son inferiores a 100 ms. La suma de todas las densidades de contenedores es del 100%.

Explora la estructura de las tablas en BigQuery.

Evaluación del rendimiento

Podemos usar nuestro conocimiento del esquema de la tabla para escribir una consulta que extraiga estos datos de rendimiento.

SELECT
  fcp
FROM
  `chrome-ux-report.all.202206`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  effective_connection_type.name = '4G' AND
  form_factor.name = 'phone' AND
  fcp.start = 0

Consulta de CrUX FCP en BigQuery

El resultado es 0.01115, lo que significa que el 1.115% de las experiencias del usuario en este origen duran entre 0 y 100 ms en 4G y en un teléfono. Si queremos generalizar nuestra consulta a cualquier conexión y tipo de dispositivo, podemos omitirlos de la cláusula WHERE y usar la función de agregador SUM para sumar todas sus densidades de objetos binarios correspondientes:

SELECT
  SUM(fcp.density)
FROM
  `chrome-ux-report.all.202206`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  fcp.start = 0

Suma de CrUX FCP en BigQuery

El resultado es 0.05355, un 5.355% en todos los dispositivos y tipos de conexión. Se puede modificar un poco la consulta y sumar las densidades de todas las discretizaciones que se encuentren en el modo "rápido". Rango de FCP de 0 a 1,000 ms:

SELECT
  SUM(fcp.density) AS fast_fcp
FROM
  `chrome-ux-report.all.202206`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  fcp.start < 1000

Consulta de FCP rápido en BigQuery

Esto nos proporciona 0.6977. En otras palabras, el 69.77% de las experiencias del usuario de FCP en web.dev se consideran “rápidas”. según la definición del rango de FCP.

Hacer un seguimiento del rendimiento

Ahora que hemos extraído datos de rendimiento de un origen, podemos compararlos con los datos históricos disponibles en tablas más antiguas. Para ello, podríamos volver a escribir la dirección de la tabla a un mes anterior o usar la sintaxis de comodín para consultar todos los meses:

SELECT
  _TABLE_SUFFIX AS yyyymm,
  SUM(fcp.density) AS fast_fcp
FROM
  `chrome-ux-report.all.*`,
  UNNEST(first_contentful_paint.histogram.bin) AS fcp
WHERE
  origin = 'https://web.dev' AND
  fcp.start < 1000
GROUP BY
  yyyymm
ORDER BY
  yyyymm DESC

Consulta una serie temporal de CrUX FCP en BigQuery

Aquí, vemos que el porcentaje de experiencias rápidas de FCP varía unos pocos puntos porcentuales cada mes.

aaaamm fast_fcp
202206 69,77%
202205 70,71%
202204 69,04%
202203 69,82%
202202 67,75%
202201 58,96%
202112 41,69%

Con estas técnicas, podrás buscar el rendimiento de un origen, calcular el porcentaje de experiencias rápidas y realizar un seguimiento a lo largo del tiempo. Como siguiente paso, intenta consultar dos o más orígenes y comparar su rendimiento.

Preguntas frecuentes

Estas son algunas de las preguntas frecuentes sobre el conjunto de datos de BigQuery en CrUX:

¿Cuándo usaría BigQuery en lugar de otras herramientas?

BigQuery solo es necesario cuando no puedes obtener la misma información de otras herramientas, como el panel de CrUX y PageSpeed Insights. Por ejemplo, BigQuery te permite dividir los datos de maneras significativas y hasta unirlos con otros conjuntos de datos públicos, como HTTP Archive, para realizar una minería de datos avanzada.

¿Existe alguna limitación para el uso de BigQuery?

Sí, la limitación más importante es que, de forma predeterminada, los usuarios solo pueden consultar 1 TB de datos por mes. Además, se aplica la tarifa estándar de $5 por TB.

¿Dónde puedo obtener más información sobre BigQuery?

Consulta la documentación de BigQuery para obtener más información.