robots.txt לא חוקי

הקובץ robots.txt מורה למנועי החיפוש אילו מדפי האתר הם יכולים לסרוק. הגדרה לא חוקית של robots.txt יכולה לגרום לשני סוגים של בעיות:

  • הוא יכול למנוע ממנועי חיפוש לסרוק דפים ציבוריים, ולגרום לכך שהתוכן שלך יופיע בתדירות נמוכה יותר בתוצאות חיפוש.
  • היא עלולה לגרום למנועי חיפוש לסרוק דפים שייתכן שלא יופיעו בתוצאות החיפוש.

איך הבדיקה של robots.txt ב-Lighthouse נכשלת

Lighthouse מסמן קובצי robots.txt לא חוקיים:

ביקורת במסגרת Lighthouse מראה קובץ robots.txt לא חוקי

כדי לבדוק מה הבעיה בrobots.txt, מרחיבים את הביקורת robots.txt not valid.

השגיאות הנפוצות כוללות:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

מערכת Lighthouse לא בודקת שהקובץ robots.txt נמצא במיקום הנכון. כדי לפעול כראוי, הקובץ חייב להיות בבסיס של הדומיין או של תת-הדומיין.

איך פותרים בעיות עם robots.txt

צריך לוודא ש-robots.txt לא מחזיר קוד סטטוס HTTP 5XX

אם השרת מחזיר שגיאת שרת (קוד סטטוס HTTP בספרה 500) עבור robots.txt, מנועי החיפוש לא ידעו אילו דפים צריך לסרוק. הם עלולים להפסיק לסרוק את האתר כולו, וכך למנוע הוספה של תוכן חדש לאינדקס.

כדי לבדוק את קוד הסטטוס של ה-HTTP, פותחים את robots.txt ב-Chrome ובודקים את הבקשה בכלי הפיתוח ל-Chrome.

שמירה על robots.txt קטנה מ-500KiB

יכול להיות שמנועי חיפוש יפסיקו לעבד robots.txt באמצע אם הקובץ גדול מ-500KiB. זה עלול לבלבל את מנוע החיפוש, וזה עלול להוביל לסריקה שגויה של האתר.

כדי לצמצם את robots.txt, התמקדו פחות בדפים שהוחרגו בנפרד ויותר בדפוסים רחבים יותר. לדוגמה, אם אתם צריכים לחסום סריקה של קובצי PDF, לא כדאי למנוע כל קובץ בנפרד. במקום זאת, צריך לחסום את כל כתובות ה-URL שמכילות את .pdf באמצעות disallow: /*.pdf.

תיקון של שגיאות בפורמט

  • רק שורות ריקות, הערות והוראות שמתאימות לפורמט 'name: value' מותרות ב-robots.txt.
  • צריך לוודא שהערכים allow ו-disallow ריקים או מתחילים ב-/ או ב-*.
  • אין להשתמש בערך $ באמצע ערך (לדוגמה, allow: /file$html).

עליך לוודא שיש ערך עבור user-agent

שמות של סוכני משתמש שינחו את הסורקים של מנוע החיפוש אחר אילו הנחיות לפעול. צריך לספק ערך לכל מכונה של user-agent כדי שמנועי החיפוש יידעו אם לפעול בהתאם לקבוצת ההוראות המשויכת.

כדי לציין סורק מסוים של מנוע חיפוש, השתמש בשם של סוכן משתמש מהרשימה שלו שפורסמה. (לדוגמה, ברשימה של סוכני המשתמש של Google המשמשים לסריקה).

משתמשים בפונקציה * כדי להתאים את כל הסורקים שלא נמצאה להם התאמה.

מה אסור לעשות
user-agent:
disallow: /downloads/

לא הוגדר סוכן משתמש.

מה מותר לעשות
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

סוכן משתמש כללי וסוכן משתמש magicsearchbot הוגדרו.

עליך לוודא שאין הוראות allow או disallow לפני user-agent

השמות של סוכני המשתמש מגדירים את הקטעים בקובץ robots.txt. סורקים של מנועי חיפוש משתמשים בקטעים האלה כדי לקבוע אחרי אילו הנחיות לפעול. אם מציבים הנחיה לפני השם של סוכן המשתמש הראשון, הסורקים לא יעקבו אחריה.

מה אסור לעשות
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

אף סורק של מנועי חיפוש לא יקרא את ההוראה disallow: /downloads.

מה מותר לעשות
# start of file
user-agent: *
disallow: /downloads/

לכל מנועי החיפוש אין הרשאה לסרוק את התיקייה /downloads.

סורקים של מנועי חיפוש פועלים רק לפי ההוראות בקטע עם שם הסוכן המשתמש הספציפי ביותר. לדוגמה, אם יש לכם הוראות ל-user-agent: * ול-user-agent: Googlebot-Image, אפליקציית Googlebot Images תפעל רק לפי ההוראות שבקטע user-agent: Googlebot-Image.

צריך לציין כתובת URL מוחלטת עבור sitemap

קובצי Sitemap הם דרך מצוינת ליידע את מנועי החיפוש על דפים באתר שלכם. קובץ sitemap כולל בדרך כלל רשימה של כתובות ה-URL באתר, יחד עם מידע על המועד האחרון שבו הן שונו.

אם תבחרו לשלוח קובץ sitemap ב-robots.txt, הקפידו להשתמש בכתובת URL מוחלטת.

מה אסור לעשות
sitemap: /sitemap-file.xml
מה מותר לעשות
sitemap: https://example.com/sitemap-file.xml

מקורות מידע