מתודולוגיית CrUX

בקטע הזה מוסבר איך חברת CrUX אוספת ומארגנת נתונים של חוויית משתמש.

הדרישות לשימוש בתכונה

בליבה של מערך הנתונים של CrUX נכללות חוויות משתמש נפרדות, המצטברות בהפצות ברמת הדף וברמת המקור. בקטע הזה מפורטות דרישות הסף של המשתמשים בנוגע לדפים ומקורות שצריך לכלול במערך הנתונים. כדי שהחוויה תיכלל בנתונים ברמת הדף שזמינים ב-PageSpeed Insights וב-CrUX API: משתמש, מקור ודף, כל הקריטריונים לזכאות צריכים להתקיים. חוויות שעומדות בקריטריונים של משתמש ומקור אבל לא של דף, לא נכללות בנתונים ברמת המקור שזמינים בכל מקורות הנתונים של CrUX.

דפים ומקורות נכללים במערך הנתונים באופן אוטומטי או מוסרים ממנו, אם הכשירות שלהם משתנה עם הזמן. בשלב זה אי אפשר לשלוח דפים או מקורות באופן ידני כדי לכלול אותם.

גלוי לכולם

כדי שאפשר יהיה לכלול דף במערך הנתונים של CrUX, עליו להיות גלוי לכולם.

אם דף מסוים גלוי לכולם, אנחנו משתמשים באותם הקריטריונים של יכולת ההוספה לאינדקס שמוגדרים על ידי מנועי החיפוש.

דף לא יכול לעמוד בדרישת יכולת הגילוי אם מתקיים אחד מהתנאים הבאים, כולל דפי בסיס (root) של מערך הנתונים המקורי:

  • לדף מוצג עם קוד סטטוס HTTP שאינו 200 (אחרי הפניות לכתובת אחרת).
  • לדף מוצג עם כותרת X-Robots-Tag: noindex של HTTP או עם כותרת מקבילה.
  • המסמך כולל מטא תג מסוג <meta name="robots" content="noindex"> או תג שווה ערך.

ב-Google Search Console תוכלו למצוא סקירה כללית של סטטוס ההוספה לאינדקס של האתר.

פופולרי מספיק

אם דף מסוים נחשב פופולרי מספיק אם יש בו מספר מינימלי של מבקרים. נקבע שמקור פופולרי מספיק אם יש לו מספר מינימלי של מבקרים בכל הדפים שלו. המספר המדויק לא נחשף, אבל הוא נבחר כדי להבטיח שיש לנו מספיק דגימות כדי שנוכל להסתמך על הנתונים הסטטיסטיים של הדפים הכלולים. המספר המינימלי זהה לדפים ולמקורות.

דפים ומקורות שלא עומדים בסף הפופולריות לא נכללים במערך הנתונים של CrUX.

מקור

מקור מייצג אתר שלם, שאפשר לפנות אליו באמצעות כתובת URL כמו https://www.example.com. כדי שמקור ייכלל במערך הנתונים של CrUX הוא צריך לעמוד בשתי דרישות:

  1. גלוי לכולם
  2. פופולריות מספיק

כדי לוודא שאפשר למצוא את המקור, מריצים בדיקת Lighthouse ובודקים את התוצאות של קטגוריות אופטימיזציה למנועי חיפוש. האתר לא גלוי אם דף הבסיס נכשל בבדיקות הדף חסום להוספה לאינדקס או קוד סטטוס ה-HTTP של הדף נכשל.

אם נקבע שמקור מסוים גלוי לכולם, חוויות המשתמש הכשירות בכל הדפים של המקור נצברות ברמת המקור, ללא קשר ליכולת הגילוי של הדף הספציפי. כל החוויות האלה נספרות בהתאם לדרישת הפופולריות של המקור.

לצורך שליחת שאילתות, שימו לב שכל המקורות במערך הנתונים של CrUX הם באותיות קטנות.

דף

כדי שדף ייכלל במערך הנתונים של CrUX זהות לדרישות הנוגעות למקורות:

  1. גלוי לכולם
  2. פופולריות מספיק

כדי לוודא שאפשר למצוא את הדף, מריצים בדיקת Lighthouse ובודקים את התוצאות של קטגוריות אופטימיזציה למנועי חיפוש. הדף לא גלוי אם נכשל בבדיקות הדף חסום להוספה לאינדקס או קוד סטטוס ה-HTTP של הדף נכשל.

אם הדף גלוי למשתמשים מסוימים באופן גלוי לכולם, אבל מחזיר סטטוס HTTP שאינו מצליח בנסיבות מסוימות, החוויות האלה לא ייכללו ב-CrUX.

בדרך כלל, לכתובת ה-URL של דפים יש מזהים נוספים, כולל פרמטרים של מחרוזת שאילתה כמו ?utm_medium=email ומקטעים כמו #main. המזהים האלה יוסרו מכתובת ה-URL במערך הנתונים של CrUX, כך שכל חוויות המשתמש בדף יצטברו יחד. האפשרות הזו שימושית לדפים שלא היו עומדים בסף הפופולריות, אם אותו הדף מכיל הרבה גרסאות שונות של כתובות URL. חשוב לשים לב שבמקרים נדירים, יכול להיות שהמערכת תקבץ יחד חוויות של דפים נפרדים באופן בלתי צפוי. לדוגמה, אם הפרמטרים ?productID=101 ו-?productID=102 מייצגים דפים שונים.

דפים ב-CrUX נמדדים על סמך הדף ברמה העליונה. דפים שכלולים כרכיבי iframe לא מדווחים בנפרד ב-CrUX, אבל הם תורמים למדדים של הדף ברמה העליונה. לדוגמה, אם https://www.example.com/page.html מטמיע את https://www.example.com/frame.html ב-iframe, page.html יוצג ב-CrUX (בכפוף לשאר הקריטריונים לזכאות), אבל frame.html לא. ואם למדד frame.html יש CLS נמוך, ה-CLS ייכלל בזמן המדידה של ה-CLS במדד page.html. CrUX הוא הדוח על חוויית המשתמש ב-Chrome, וייתכן שהמשתמש אפילו לא מודע לכך שמדובר ב-iframe. לכן, החוויה נמדדת ברמה העליונה של הדף, בהתאם לאופן שבו המשתמש רואה את זה.

הארכיטקטורה של אתר עשויה להקשות על האופן שבו הנתונים שלו מיוצגים ב-CrUX. לדוגמה, אפליקציות בדף יחיד (SPA) עשויות להשתמש בסכמת מעבר מסלול שמבוססת על JavaScript כדי לעבור בין דפים, בניגוד לניווטים רגילים בדפים שמבוססים על עוגן. המעברים האלה מופיעים כצפיות חדשות בדפים, אבל ל-Chrome ולממשקי ה-API של הפלטפורמה הבסיסית, החוויה כולה משויכת לצפייה הראשונית בדף. זוהי מגבלה על ממשקי ה-API של פלטפורמת האינטרנט שעליהם מבוססים CrUX. למידע נוסף, ניתן לעיין במאמר איך ארכיטקטורות SPA משפיעות על Core Web Vitals ב-web.dev.

משתמש

כדי שהחוויות של משתמשים יצטברו במערך הנתונים של CrUX, הם צריכים לעמוד בקריטריונים הבאים:

  1. מפעילים את האפשרות דיווח על סטטיסטיקות שימוש.
  2. לסנכרן את היסטוריית הדפדפן שלהם.
  3. לא הוגדר ביטוי סיסמה לסנכרון.
  4. משתמשים בפלטפורמה נתמכת.

נכון לעכשיו, הפלטפורמות הנתמכות הן:

  • גרסאות של Chrome למחשבים, כולל מערכות ההפעלה Windows, macOS, ChromeOS ו-Linux.
  • גרסאות Android של Chrome, כולל אפליקציות לנייד באמצעות כרטיסיות מותאמות אישית וWebAPKs.

יש כמה יוצאים מן הכלל שלא מספקים נתונים למערך הנתונים של CrUX:

  • Chrome ב-iOS.
  • אפליקציות ל-Android שמשתמשות ב-WebView.
  • דפדפני Chromium אחרים (לדוגמה Microsoft Edge).

דפדפן Chrome לא מפרסם נתונים לגבי שיעור המשתמשים שעומדים בקריטריונים האלה. אפשר לקרוא מידע נוסף על הנתונים שאנחנו אוספים בסקירה המפורטת בנושא פרטיות ב-Chrome.

Accelerated Mobile Pages ‏(AMP)

דפים שנוצרו באמצעות AMP נכללים במערך הנתונים של CrUX כמו כל דף אינטרנט אחר. החל מגרסת CrUX של יוני 2020, דפים שמוצגים באמצעות מטמון AMP או שעברו רינדור במציג AMP מתועדים גם הם ומשויכים לכתובת ה-URL של הדף של בעל התוכן הדיגיטלי.

איכות הנתונים

הנתונים ב-CrUX עוברים כמות קטנה של עיבוד כדי להבטיח שהם מדויקים מבחינה סטטיסטית, מובנים היטב וקלים יותר לשאילתות.

סינון

מתבצע סינון של מערך הנתונים של CrUX כדי לוודא שהנתונים המוצגים תקפים מבחינה סטטיסטית. יכול להיות שמערך הנתונים לא יכלול דפים שלמים או מקורות שלמים.

בנוסף לקריטריונים לזכאות שחלים על מקורות ודפים, נוסף סינון לפלחים מתוך הנתונים:

מקורות או דפים שיותר מ-20% מהתנועה הכוללת שלהם מוחרגת בגלל שילובים של מאפיינים שלא עומדים בדרישות מוחרגים לגמרי ממערך הנתונים.

מאחר שמערך הנתונים הגלובלי כולל את חוויות המשתמש מכל המדינות, שילובים של מאפיינים שלא עומדים בקריטריונים של הפופולריות ברמת המדינה עדיין עשויים להיכלל ברמה הגלובלית, בתנאי שהפופולריות שלהם גבוהה מספיק.

מטושטש

המערכת משתמשת במידה קטנה של אקראיות על מערך הנתונים כדי למנוע הנדסה הפוכה של מידע אישי רגיש, כמו נפחי תנועה כוללים. אין לכך השפעה על הדיוק של הנתונים הסטטיסטיים הנצברים.

דיוק

רוב הערכים במערך הנתונים של CrUX מיוצגים בתור היסטוגרמות של ערכים וגודלי סלים, כאשר ערך ההיסטוגרמה הוא חלק מכל הפלחים הכלולים שמסתכמים ל-1. גודל סלים הוא מספר נקודה צפה (floating-point) בין 1.0 ל-0.0001.

ערכי הרוחב של סלי הגלילה מנורמלים להיסטוגרמה כדי לפשט את השאילתות והמחשה חזותית של הנתונים. המשמעות היא שאפשר לפצל את התאים הגדולים יותר לתאים קטנים יותר, שחולקים את הצפיפות המקורית כדי לשמור על רוחב תאי אחסון עקבי.

רישיון

מערכי הנתונים של CrUX ש-Google של Google מחזיקים ברישיון במסגרת רישיון Creative Commons Attribution 4.0.