robots.txt לא חוקי

הקובץ robots.txt מורה למנועי החיפוש אילו מדפי האתר שלך הם יכולים לסרוק. הגדרה לא תקינה של robots.txt עלולה לגרום לשני סוגים של בעיות:

  • היא יכולה למנוע ממנועי חיפוש לסרוק דפים ציבוריים, וזה גורם לתוכן שיופיע בתדירות נמוכה יותר בתוצאות חיפוש.
  • היא עלולה לגרום למנועי חיפוש לסרוק דפים שייתכן שאתם לא רוצים שיוצגו בחיפוש תוצאות.

איך הבדיקה של robots.txt במסגרת Lighthouse נכשלה

סימוני Lighthouse לא חוקיים robots.txt קבצים:

ביקורת Lighthouse שבה מוצג קובץ robots.txt לא תקין

מרחיבים את הביקורת robots.txt לא תקינה בדוח כדי לבדוק מה הבעיה עם robots.txt.

דוגמאות לשגיאות נפוצות:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

מערכת Lighthouse לא בודקת שהקובץ robots.txt במיקום הנכון. כדי לפעול כראוי, הקובץ חייב להיות ברמה הבסיסית (root) של הדומיין או תת-הדומיין שלך.

איך לפתור בעיות עם robots.txt

מוודאים ש-robots.txt לא מחזיר קוד סטטוס HTTP 5XX

אם השרת מחזיר שגיאת שרת (קוד סטטוס HTTP) של 500 השניות) עבור robots.txt, מנועי החיפוש לא ידעו אילו דפים נסרק. הם עשויים להפסיק לסרוק את האתר כולו, וכך תמנע הוספה לאינדקס.

כדי לבדוק את קוד הסטטוס של HTTP, צריך לפתוח את robots.txt ב-Chrome ואז בודקים את הבקשה בכלי הפיתוח ל-Chrome.

הקטנה של robots.txt מ-500KiB

מנועי חיפוש עשויים להפסיק לעבד robots.txt באמצע התהליך אם הקובץ שגדול מ-500KiB. הדבר עלול לבלבל את מנוע החיפוש, דבר שיוביל לחיפוש שגוי של סריקת האתר שלכם.

כדי להקטין את robots.txt, כדאי להתמקד פחות בדפים מוחרגים ספציפיים ועוד על דפוסים רחבים יותר. לדוגמה, אם אתם צריכים לחסום סריקה של קובצי PDF, אין חסימה של כל קובץ בנפרד. במקום זאת, אסור להשתמש בכל כתובות ה-URL שמכילות .pdf באמצעות disallow: /*.pdf.

מתקנים שגיאות בפורמט

  • רק שורות ריקות, הערות והוראות שתואמות ל-'name: value' הפורמטים הם מותרת בrobots.txt.
  • צריך לוודא שהערכים allow ו-disallow ריקים או שהם מתחילים ב-/ או ב-*.
  • אין להשתמש ב-$ באמצע ערך (לדוגמה, allow: /file$html).

צריך לוודא שיש ערך במאפיין user-agent.

שמות של סוכני משתמש כדי להנחות את הסורקים של מנוע החיפוש אחרי אילו הנחיות צריך לפעול. שלך חייב לספק ערך לכל מופע של user-agent כדי שמנועי החיפוש ידעו האם לעקוב אחר קבוצת ההוראות המשויכת.

כדי לציין סורק ספציפי של מנוע חיפוש, השתמש בשם סוכן משתמש שפורסמה. (לדוגמה, רשימת סוכני המשתמש של Google המשמשים לסריקה).

צריך להשתמש ב-* כדי להתאים את כל הסורקים שלא נמצאו להם התאמות אחרות.

מה אסור לעשות
user-agent:
disallow: /downloads/

לא הוגדר סוכן משתמש.

מה מותר לעשות
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

מוגדרים סוכן משתמש כללי וסוכן משתמש מסוג magicsearchbot.

צריך לוודא שאין הוראות allow או disallow לפני user-agent

שמות של סוכני משתמש מגדירים את הקטעים של קובץ robots.txt. מנוע חיפוש הסורקים משתמשים בקטעים האלה כדי לקבוע אחרי אילו הנחיות לעקוב. מיקום לפני שם סוכן המשתמש הראשון פירושו שאף סורק לא יעקוב את זה.

מה אסור לעשות
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

אף סורק של מנועי חיפוש לא יקרא את ההוראה disallow: /downloads.

מה מותר לעשות
# start of file
user-agent: *
disallow: /downloads/

כל מנועי החיפוש לא מורשים לסרוק את התיקייה /downloads.

סורקים של מנועי חיפוש פועלים רק לפי ההוראות בקטעים הרלוונטיים ביותר משתמש-סוכן ספציפי. לדוגמה, אם יש לכם הוראות לגבי user-agent: * ו-user-agent: Googlebot-Image, תמונות Googlebot ישתמשו רק פועלים לפי ההוראות בקטע user-agent: Googlebot-Image.

עליך לספק כתובת URL מוחלטת עבור sitemap

קובצי Sitemap הם דרך מצוינת ליידע את מנועי החיפוש על דפים באתר שלכם. בדרך כלל קובץ Sitemap כולל רשימה של את כתובות ה-URL באתר שלכם, לצד מידע על המועד האחרון שבו הן היו השתנה.

אם תבחר לשלוח קובץ Sitemap ב-robots.txt, עליך לוודא להשתמש בכתובת URL מוחלטת.

מה אסור לעשות
sitemap: /sitemap-file.xml
מה מותר לעשות
sitemap: https://example.com/sitemap-file.xml

משאבים