עבודה עם רעש

איך עובדים עם רעשי רקע בדוחות שאפשר לצבור, מביאים בחשבון את ההשפעה שלהם וצמצמים אותה?

לפני שמתחילים

לפני שנמשיך, מומלץ לקרוא את המאמר הסבר על רעש בדוחות סיכום כדי להבין לעומק מהו רעש ומה ההשפעה שלו.

אמצעי הבקרה שלכם על הרעש

אי אפשר לשלוט ישירות ברעש שנוסף לדוחות שאפשר לצבור, אבל יש כמה פעולות שאפשר לבצע כדי למזער את ההשפעות. האסטרטגיות האלה מוסברות בקטעים הבאים.

הגדלה של התקציב לתרומות

כפי שמוסבר במאמר 'הסבר על רעש', הרעש שחלה על ערך הסיכום לכל מפתח מבוסס על הסולם 0 עד 65,536 (0 עד CONTRIBUTION_BUDGET).

חלוקת הרעשים מבוססת על התקציב.

לכן, כדי למקסם את האות ביחס לרעש, צריך להגדיל כל ערך לפני שמגדירים אותו כערך שניתן לצבור. כלומר, צריך להכפיל כל ערך בגורם מסוים, גורם ההתאמה, תוך הקפדה על כך שהערך יישאר במסגרת תקציב התרומה.

רעש יחסי עם ובלי שינוי קנה מידה.

חישוב גורם לקביעת קנה מידה

גורם ההתאמה מייצג את מידת ההתאמה שרוצים לבצע לערך נתון שניתן לצבור. הערך שלו צריך להיות תקציב התרומה חלקי הערך המקסימלי שניתן לצבור למפתח מסוים.

קביעת גורם ההתאמה על סמך תקציב התרומה.

לדוגמה, נניח שמפרסמים רוצים לדעת מהו הערך הכולל של הרכישה. אתם יודעים שהערך המקסימלי הצפוי של כל רכישה בודדת הוא 2,000$, מלבד כמה ערכים חריגים שהחלטתם להתעלם מהם:

  • מחשבים את גורם ההתאמה:
    • כדי למקסם את יחס האות לרעש, צריך לשנות את הערך הזה ל-65,536 (תקציב ההוספה).
    • התוצאה היא גורם קנה מידה של 65,536 / 2,000, בערך 32x. בפועל, אפשר לעגל את הגורם הזה כלפי מעלה או כלפי מטה.
  • הגדלת הערכים לפני הצבירה. לכל $1 של רכישה, מוסיפים 32 למדד שנמצא במעקב. לדוגמה, לרכישה של 480 ש"ח, מגדירים ערך שניתן לצבור: 480*32 = 15,360.
  • הקטנת הערכים אחרי צבירת הנתונים אחרי שתקבלו את דוח הסיכום שמכיל את ערך הרכישה שמצטבר מכמה משתמשים, תוכלו להקטין את ערך הסיכום באמצעות גורם ההתאמה שהשתמשתם בו לפני הצבירה. בדוגמה שלנו, השתמשנו בגורם התאמה של 32 לפני צבירה, לכן צריך לחלק את ערך הסיכום שהתקבל בדוח הסיכום ב-32. לכן, אם ערך הרכישה הכולל של מפתח נתון בדוח הסיכום הוא 76,800, ערך הרכישה הכולל (עם רעש) הוא 76,800/32 = ‏ 2,400$.

פיצול התקציב

אם הגדרתם כמה יעדים למדידת ביצועים – לדוגמה, מספר רכישות וערך הרכישה – מומלץ לפצל את התקציב בין היעדים האלה.

במקרה כזה, גורמי ההתאמה ישתנו בהתאם לערכים שונים שניתנים לצבירה, בהתאם לערך המקסימלי הצפוי של ערך נתון שאפשר לצבור.

פרטים נוספים זמינים במאמר הסבר על מפתחות צבירת נתונים.

לדוגמה, נניח שאתם עוקבים גם אחרי מספר הרכישות וגם אחרי ערך הרכישה, ואתם מחליטים להקצות את התקציב באופן שווה.

אפשר להקצות 32,768 / 2 = 65,536 לכל סוג מדידה לכל מקור.

  • מספר הרכישות:
    • אתם עוקבים רק אחרי רכישה אחת, ולכן מספר הרכישות המקסימלי להמרה נתונה הוא 1.
    • לכן, אתם מחליטים להגדיר את גורם ההתאמה לערך של 32,768 / 1 = 32,768 עבור מספר הרכישות.
  • ערך הרכישה:
    • נניח שערך הרכישה הצפוי המקסימלי של כל רכישה בודדת הוא 2,000$.
    • לכן, אתם מחליטים להגדיר את גורם ההתאמה לערך הרכישה כ-32,768 / 2,000 = 16.384 או כ-16.

מפתחות צבירת נתונים גסים יותר משפרים את יחס האות לרעש

מכיוון שמפתחות רחבים יותר מתעדים יותר אירועי המרה מאשר מפתחות מפורטים, בדרך כלל מפתחות רחבים יותר מובילים לערכים גבוהים יותר בסיכום.

ערכים סיכומיים גבוהים יותר מושפעים פחות מרעש בהשוואה לערכים נמוכים יותר. סביר להניח שהרעש בערכים האלה יהיה נמוך יותר, ביחס לערך הזה.

סביר להניח שערכים שנאספים באמצעות מפתחות רחבים יותר יהיו פחות רועשים יחסית לעומת ערכים שנאספים באמצעות מפתחות מפורטים יותר.

דוגמה

בהנחה שכל שאר הנתונים זהים, שימוש במפתח שמנטר את ערך הרכישה ברמת העולם (הערך הכולל בכל המדינות) יוביל לערך סיכום גבוה יותר של הרכישות (ולמספר סיכום גבוה יותר של ההמרות) בהשוואה למפתח שמנטר המרות ברמת המדינה.

לכן, הרעש היחסי בערך הכולל של הרכישות במדינה ספציפית יהיה גבוה יותר מהרעש היחסי בערך הכולל של הרכישות בכל המדינות.

באופן דומה, אם כל שאר הנתונים זהים, ערך הרכישה הכולל של נעליים נמוך מערך הרכישה הכולל של כל הפריטים (כולל נעליים).

לכן, הרעש היחסי בערך הרכישה הכולל של נעליים יהיה גבוה יותר מהרעש היחסי בערך הרכישה הכולל של כל הפריטים.

ההשפעה של רעש עם מפתחות מפורטים לעומת מפתחות כלליים.

סיכום של ערכים של סיכומים (צבירות) כולל גם את הרעש שלהם

כשמוסיפים את ערכי הסיכום מדוחות הסיכום כדי לגשת לנתונים ברמה גבוהה יותר, מוסיפים גם את הרעש מערכי הסיכום האלה.

מידת הרעש במפתחות מפורטים עם סיכומים לעומת מפתחות כלליים ללא סיכומים

נבחן שתי גישות שונות: - גישה א': כוללים מזהה גיאוגרפי במפתחות. דוחות סיכום חושפים מפתחות ברמת מזהה גיאוגרפי, שכל אחד מהם משויך לערך הרכישה הכולל ברמת מזהה גיאוגרפי ספציפי. - גישה ב': לא כוללים מזהה גיאוגרפי במפתחות. בדוחות סיכום מוצג ישירות ערך הרכישה הכולל של כל המיקומים או המזהים הגיאוגרפיים.

כדי לגשת לערך הרכישה ברמת המדינה: - בגישה א', מסכמים את ערכי הסיכום ברמת מזהה ה-Geo וגם את הרעש שלהם. סביר להניח שהפעולה הזו תגרום ליותר רעש שיתווסף לערך הרכישה הסופי ברמת מזהה ה-Geo. - בגישה ב', בודקים ישירות את הנתונים שמוצגים בדוחות הסיכום. הרעש נוסף לנתונים האלה רק פעם אחת.

לכן, סביר להניח שערכו של סיכום הרכישות במזהה גיאוגרפי נתון יהיה פחות יציב בגישה א'.

באופן דומה, הוספת מאפיין ברמת המיקוד בדואר במפתחות עשויה להוביל לתוצאות עם יותר רעש מאשר שימוש במפתחות רחבים יותר עם מאפיין ברמת האזור.

צבירת נתונים על פני תקופות זמן ארוכות יותר מגדילה את יחס האות לרעש

אם מבקשים דוחות סיכום בתדירות נמוכה יותר, סביר להניח שכל ערך סיכום יהיה גבוה יותר מאשר אם מבקשים דוחות בתדירות גבוהה יותר. סביר להניח שיהיו יותר המרות במרווחי זמן ארוכים יותר.

כפי שצוין קודם, ככל שערך הסיכום גבוה יותר, כך סביר להניח שרעשי הרקע היחסיים יהיו נמוכים יותר. לכן, שליחת בקשות לדוחות סיכום בתדירות נמוכה יותר מובילה ליחס אות/רעש גבוה יותר (טוב יותר).

שליחת בקשות לדוחות סיכום בתדירות נמוכה יותר מובילה ליחס אות/רעש גבוה יותר

דוגמה להמחשה:

  • אם מבקשים דוחות סיכום שעתיים על פני 24 שעות, ולאחר מכן מסכמים את ערך הסיכום מכל דוח שעתי כדי לגשת לנתונים ברמת היום, הרעשים מתווספים 24 פעמים.
  • בדיווח סיכום יומי אחד, הרעשים מתווספים רק פעם אחת.

ערך epsilon גבוה יותר, רעש נמוך יותר

ככל שערך האלפא גבוה יותר, כך רמת הרעש נמוכה יותר וההגנה על הפרטיות נמוכה יותר.

שימוש בסינון ובביטול כפילויות

חלק חשוב בהקצאת התקציב בין מפתחות שונים הוא להבין כמה פעמים אירוע נתון יכול להתרחש. לדוגמה, יכול להיות שמפרסם ירצה לקבל דיווח על רכישה אחת לכל קליק, אבל הוא עשוי להתעניין בעד 3 המרות מסוג 'צפייה בדף המוצר'. כדי לתמוך בתרחישי השימוש האלה, מומלץ גם להשתמש בתכונות ה-API הבאות שמאפשרות לכם לקבוע כמה דוחות יופקו ואילו המרות ייספרו:

התנסות עם אפסילון

מומחי טכנולוגיית הפרסום יכולים להגדיר את ערך האפסילון לערך גדול מ-0 ועד 64. הטווח הזה מאפשר בדיקה גמישה. ערכים נמוכים יותר של epsilon מספקים הגנה טובה יותר על הפרטיות. מומלץ להתחיל עם epsilon=10.

המלצות לניסוי

מומלץ לפעול לפי ההמלצות הבאות: - מתחילים עם epsilon = 10. - אם הדבר גורם לבעיות משמעותיות בשירותים, צריך להגדיל את האלפא באופן מצטבר. - שתפו את המשוב שלכם על נקודות מפנה ספציפיות שמצאתם בנוגע לנוחות השימוש בנתונים.

עניין ושיתוף משוב

אתם יכולים להשתתף ב-API הזה ולהתנסות בו.

השלבים הבאים