CrUX 方法

本部分介绍了 CrUX 如何收集和整理用户体验数据。

资格要求

CrUX 数据集的核心是个人用户体验,汇总为网页级和源级分布。本部分记录了用户资格以及要添加到数据集中的网页和源的要求。若要在 PageSpeed Insights 和 CrUX API 中提供的网页级数据中纳入体验,必须满足所有资格条件:UserOriginPage。符合“用户”和“源”条件但不符合“网页”条件的体验不会包含在所有 CrUX 数据源中可用的源级数据中。

如果网页和源站的资格条件随时间而变化,则系统会自动在数据集中添加或移除网页和源站。目前,您无法手动提交网页或来源以供收录。

可公开搜索

网页必须可公开发现,才会被视为收录到 CrUX 数据集中。

系统使用搜索引擎的索引编制便利性条件确定网页可公开搜索。

如果满足以下任何条件(包括原始数据集的根网页),则网页无法满足可检测性要求:

  • 相应网页会带有 200 以外的 HTTP 状态代码(在重定向之后)。
  • 网页使用 HTTP X-Robots-Tag: noindex 标头或等效标头提供。
  • 该文档包含 <meta name="robots" content="noindex"> 元标记或等效标记。

如需简要了解您网站的索引编制状态,请参阅 Google Search Console

足够受欢迎

如果某个网页具有最低数量的访问者,则会被视为足够受欢迎。如果某个来源在其所有页面上都有最低数量的访问者,则该来源会被视为足够受欢迎。具体数值不会透露,但这样做的目的是为了确保我们有足够多的样本能够确信所纳入网页的统计分布情况。网页和源站的最小数量相同。

未达到热门程度阈值的网页和源站不会包含在 CrUX 数据集中。

原点

origin 表示整个网站,可通过 https://www.example.com 等网址寻址。若要将源站添加到 CrUX 数据集,它必须满足以下两个要求:

  1. 可公开查找
  2. 足够受欢迎

您可以运行 Lighthouse 审核并查看 SEO 类别结果,从而验证您的源是否可被发现。如果您的根网页未能通过网页被禁止编入索引网页包含失败的 HTTP 状态代码审核结果,便无法发现您的网站。

如果确定某个来源可被公开发现,那么无论单个网页是否可被发现,该来源所有页面上的符合条件的用户体验都会在源站级别汇总。所有这些体验都会计入源站的热门程度要求。

请注意,为便于查询,CrUX 数据集中的所有源站都使用小写形式。

网页

添加到 CrUX 数据集中的网页的要求与源站相同:

  1. 可公开查找
  2. 足够受欢迎

您可以运行 Lighthouse 审核并查看 SEO 类别结果,以验证是否可以发现某个网页。如果您的网页未能通过网页被禁止编入索引网页 HTTP 状态代码失败审核,便无法被发现。

网页通常在其网址中具有其他标识符,包括查询字符串参数(如 ?utm_medium=email)和片段(如 #main)。系统会从 CrUX 数据集内的网址中去除这些标识符,以便将网页上的所有用户体验汇总到一起。对于那些本来无法满足热门程度阈值的网页(如果同一网页有多个不相交的网址变体),此设置将非常有用。请注意,在极少数情况下,这可能会导致针对不同网页的体验意外地组合在一起;例如,当参数 ?productID=101?productID=102 代表不同的网页时。

CrUX 中的网页是根据顶级网页来衡量的。以 iframe 的形式添加的网页不会在 CrUX 中单独报告,但会对顶级网页的指标产生影响。例如,如果 https://www.example.com/page.htmlhttps://www.example.com/frame.html 嵌入到 iframe 中,那么 page.html 会显示在 CrUX 中(具体取决于其他资格条件),但 frame.html 不会。如果 frame.htmlCLS 较差,则在衡量 page.html 的 CLS 时,CLS 会包含在内。CrUX 是 Chrome 用户体验报告,用户甚至可能不知道这是一个 iframe。因此,体验的衡量方式是在顶级页面上,即用户看到的内容。

网站的架构可能会使其数据在 CrUX 中的呈现方式变得复杂。例如,与基于锚点的传统页面导航不同,单页应用 (SPA) 可能会使用基于 JavaScript 的“路由转换”方案在网页之间移动。对用户来说,这些转换会显示为新的网页浏览,但对于 Chrome 和底层平台 API,整个体验将归因于初始网页浏览。这是构建 CrUX 的原生 Web 平台 API 的局限性。如需了解详情,请参阅 web.dev 上的 SPA 架构如何影响核心网页指标

用户

如要将体验汇总到 CrUX 数据集中,用户必须满足以下条件:

  1. 启用用量统计信息报告
  2. 同步浏览器历史记录
  3. 未设置同步密码
  4. 使用受支持的平台。

目前支持的平台包括:

  • 桌面版 Chrome,包括 Windows、MacOS、ChromeOS 和 Linux 操作系统。
  • Android 版本的 Chrome,包括使用自定义标签页WebAPKs 的原生应用。

有一些明显的例外情况不会向 CrUX 数据集提供数据:

  • iOS 版 Chrome。
  • 使用 WebView 的原生 Android 应用。
  • 其他 Chromium 浏览器(例如 Microsoft Edge)。

Chrome 无法发布符合这些条件的用户所占比例的数据。您可以参阅 Chrome 隐私权白皮书,详细了解我们会收集的数据。

Accelerated Mobile Pages (AMP)

与任何其他网页一样,使用 AMP 构建的网页会包含在 CrUX 数据集中。自 2020 年 6 月的 CrUX 版本起,系统还会捕获通过 AMP Cache 和 / 或 AMP Viewer 中呈现的网页,并将其归因于发布商的网页网址。

数据质量

CrUX 中的数据会经过少量处理,以确保统计准确性、结构良好且易于查询。

过滤

系统会对 CrUX 数据集进行过滤,以确保呈现的数据具有统计有效性。这可能会导致整个网页或来源不会显示在数据集中。

除了对源站和网页应用的资格条件外,您还可以对数据中的细分受众群应用进一步的过滤:

对于因不符合条件的维度组合而被排除超过 20% 的总流量的来源或网页,系统会从数据集内完全排除这些来源或网页。

由于全球级数据集包含所有国家/地区的用户体验,因此在足够的人气的基础上,不符合国家/地区级热门程度标准的维度组合可能仍会被纳入全球级。

模糊测试

对数据集应用少量随机性,以防止敏感数据(例如总流量)进行逆向工程。这不会影响汇总统计信息的准确性。

精确率

CrUX 数据集中的大多数指标值表示为值和分箱大小的直方图,其中直方图值是所有包含的细分加总为 1 的比例。分箱大小是介于 1.0 到 0.0001 之间的浮点数。

直方图对分箱宽度进行标准化,以简化数据查询和可视化。这意味着,较大的分箱可能会拆分为较小的分箱,这些较小的分箱会平均共用原始密度,以保持一致的分箱宽度。

许可

Google 的 CrUX 数据集已获得知识共享署名 4.0 国际许可