CrUX 方法

本部分介绍了 CrUX 如何收集和整理用户体验数据。

资格要求

CrUX 数据集的核心是各个用户体验,这些体验会汇总为网页级和来源级分布。本部分介绍了用户资格条件,以及网页和来源纳入数据集的要求。只有同时满足所有资格条件,体验才能纳入 PageSpeed Insights 和 CrUX API 中提供的网页级数据:用户来源网页。如果体验满足用户和来源条件,但不满足网页条件,则不会纳入所有 CrUX 数据源中提供的来源级数据。

如果网页和来源的资格条件随时间变化,系统会自动将其纳入或从数据集中移除。目前,您无法手动提交网页或来源以供收录。

可公开查找

网页必须可公开发现,才能考虑将其纳入 CrUX 数据集。

网页是否可公开发现取决于其是否符合搜索引擎的可编入索引性标准。

如果满足以下任何条件(包括来源数据集的根网页),网页无法满足可发现性要求:

  • 网页返回的 HTTP 状态代码不是 200(在重定向之后)。
  • 网页采用 HTTP X-Robots-Tag: noindex 标头或等效标头。
  • 文档包含 <meta name="robots" content="noindex"> meta 标记或等效标记。

如需大致了解您网站的索引编制状态,请参阅 Google Search Console

足够受欢迎

如果网页的访问者数量达到最低数量,则可确定该网页足够热门。如果某个来源的所有网页的访问者总数达到最低数量,则该来源会被视为足够热门。我们不会透露确切的数字,但选择的网页数量足以确保我们有足够的样本来放心地使用所含网页的统计分布。网页和来源的最低数量相同。

不符合热度阈值的网页和来源不会纳入 CrUX 数据集。

来源

表示整个网站,可通过网址(如 https://www.example.com)寻址。如需将来源纳入 CrUX 数据集,该来源必须满足以下两项要求:

  1. 可公开查找
  2. 足够受欢迎

您可以运行 Lighthouse 审核并查看 SEO 类别结果,以验证您的来源是否可被发现。如果您的根网页未通过网页被禁止编入索引网页的 HTTP 状态代码无效审核,则表示您的网站无法被发现。

如果某个来源被确定为可公开发现,则该来源的所有网页上符合条件的用户体验都会在来源级进行汇总,而无论单个网页是否可发现。所有这些体验都计入来源的热门程度要求。

请注意,为了便于查询,CrUX 数据集中的所有来源均为小写。

网页

网页被纳入 CrUX 数据集的要求与源的要求相同:

  1. 可公开查找
  2. 足够受欢迎

您可以运行 Lighthouse 审核并查看 SEO 类别结果,验证网页是否可被发现。如果您的网页未通过网页被禁止编入索引网页返回了无效的 HTTP 状态代码审核,则无法被发现。

如果网页可供部分用户公开发现,但在某些情况下会返回非成功的 HTTP 状态,那么这些体验将不会纳入 CrUX。

网页的网址中通常包含其他标识符,包括查询字符串参数(如 ?utm_medium=email)和片段(如 #main)。这些标识符会从 CrUX 数据集中的网址中移除,以便将网页上的所有用户体验汇总在一起。如果同一网页有许多不相关的网址变体,导致网页无法达到热度阈值,那么这种做法就非常有用。请注意,在极少数情况下,这可能会意外地将不同网页的体验归为一组;例如,如果参数 ?productID=101?productID=102 代表不同的网页。

CrUX 中的网页是根据顶级网页进行衡量的。以 iframe 形式包含的网页不会在 CrUX 中单独报告,但会影响顶级网页的指标。例如,如果 https://www.example.com/page.html 在 iframe 中嵌入了 https://www.example.com/frame.html,那么 page.html 在 CrUX 中表示(符合其他资格条件),但 frame.html 不会。如果 frame.htmlCLS 较差,那么在衡量 page.html 的 CLS 时,系统会纳入该 CLS。CrUX 是 Chrome 用户体验报告,用户甚至可能不知道这是一个 iframe。因此,系统会根据用户看到的情况,在顶级网页上衡量体验。

网站的架构可能会使 CrUX 中数据的表示方式变得复杂。例如,单页应用 (SPA) 可能会使用基于 JavaScript 的路由转换方案在页面之间移动,而不是使用基于锚点的传统页面导航。这些转换对用户来说是新的网页浏览,但对于 Chrome 和底层平台 API 来说,整个体验都归因于初始网页浏览。这是 CrUX 所基于的 Web 平台 API 的限制,如需了解详情,请参阅 web.dev 上的SPA 架构如何影响核心网页指标

用户

用户必须满足以下条件,其体验才能汇总到 CrUX 数据集中:

  1. 启用使用情况统计信息报告
  2. 同步其浏览器历史记录
  3. 未设置同步口令
  4. 使用受支持的平台。

目前支持的平台包括:

  • Chrome 的桌面版,包括 Windows、macOS、ChromeOS 和 Linux 操作系统。
  • Android 版 Chrome,包括使用自定义标签页WebAPKs 的移动应用。

有几个值得注意的例外情况不会向 CrUX 数据集提供数据:

  • Chrome(iOS 版)。
  • 使用 WebView 的 Android 应用。
  • 其他基于 Chromium 的浏览器(例如 Microsoft Edge)。

Chrome 无法发布有关符合这些条件的用户比例的数据。您可以详细了解 Chrome 中收集的数据

Accelerated Mobile Pages (AMP)

与其他网页一样,采用 AMP 构建的网页也包含在 CrUX 数据集中。自 2020 年 6 月 CrUX 版本起,使用 AMP Cache 提供的网页和 / 或在 AMP 查看工具中呈现的网页也会被捕获,并归因于发布商的网页网址。

数据质量

CrUX 中的数据会经过少量处理,以确保其在统计上准确无误、结构合理且更易于查询。

过滤

CrUX 数据集经过过滤,以确保所呈现的数据在统计上有效。这可能会导致整个网页或来源无法显示在数据集中。

除了适用于来源和网页的资格条件之外,系统还会对数据中的细分应用进一步的过滤条件:

如果来源或网页因维度组合不符合条件而导致超过 20% 的总流量被排除,则这些来源或网页将完全从数据集中排除。

由于全球级数据集涵盖了所有国家/地区的用户体验,因此即使某些维度组合在国家/地区级不符合热门程度条件,但只要热门程度足够,仍可能会包含在全球级数据集中。

模糊测试

系统会向数据集应用少量随机性,以防止对总流量等敏感数据进行逆向工程。这不会影响汇总统计信息的准确性。

精确率

CrUX 数据集中的大多数指标值都表示为值和箱大小的直方图,其中直方图值是所有纳入的段的总和(为 1)的分数。箱大小是介于 1.0 和 0.0001 之间的浮点数。

直方图的箱宽度已标准化,可简化数据查询和可视化。这意味着,较大的箱可能会拆分为较小的箱,这些箱会平均分摊原始密度,以保持箱宽度一致。

许可

Google 提供的 CrUX 数据集已获得知识共享署名 4.0 国际版许可