הקובץ robots.txt
מורה למנועי החיפוש אילו מדפי האתר שלך הם יכולים
לסרוק. הגדרה לא תקינה של robots.txt
עלולה לגרום לשני סוגים של בעיות:
- היא יכולה למנוע ממנועי חיפוש לסרוק דפים ציבוריים, וזה גורם לתוכן שיופיע בתדירות נמוכה יותר בתוצאות חיפוש.
- היא עלולה לגרום למנועי חיפוש לסרוק דפים שייתכן שאתם לא רוצים שיוצגו בחיפוש תוצאות.
איך הבדיקה של robots.txt
במסגרת Lighthouse נכשלה
סימוני Lighthouse לא חוקיים
robots.txt
קבצים:
מרחיבים את הביקורת robots.txt
לא תקינה בדוח
כדי לבדוק מה הבעיה עם robots.txt
.
דוגמאות לשגיאות נפוצות:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
מערכת Lighthouse לא בודקת שהקובץ robots.txt
במיקום הנכון. כדי לפעול כראוי, הקובץ חייב להיות ברמה הבסיסית (root) של
הדומיין או תת-הדומיין שלך.
איך לפתור בעיות עם robots.txt
מוודאים ש-robots.txt
לא מחזיר קוד סטטוס HTTP 5XX
אם השרת מחזיר שגיאת שרת (קוד סטטוס HTTP)
של 500 השניות) עבור robots.txt
, מנועי החיפוש לא ידעו אילו דפים
נסרק. הם עשויים להפסיק לסרוק את האתר כולו, וכך תמנע
הוספה לאינדקס.
כדי לבדוק את קוד הסטטוס של HTTP, צריך לפתוח את robots.txt
ב-Chrome ואז
בודקים את הבקשה בכלי הפיתוח ל-Chrome.
הקטנה של robots.txt
מ-500KiB
מנועי חיפוש עשויים להפסיק לעבד robots.txt
באמצע התהליך אם הקובץ
שגדול מ-500KiB. הדבר עלול לבלבל את מנוע החיפוש, דבר שיוביל לחיפוש שגוי
של סריקת האתר שלכם.
כדי להקטין את robots.txt
, כדאי להתמקד פחות בדפים מוחרגים ספציפיים ועוד
על דפוסים רחבים יותר. לדוגמה, אם אתם צריכים לחסום סריקה של קובצי PDF,
אין חסימה של כל קובץ בנפרד. במקום זאת, אסור להשתמש בכל כתובות ה-URL שמכילות
.pdf
באמצעות disallow: /*.pdf
.
מתקנים שגיאות בפורמט
- רק שורות ריקות, הערות והוראות שתואמות ל-'name: value' הפורמטים הם
מותרת ב
robots.txt
. - צריך לוודא שהערכים
allow
ו-disallow
ריקים או שהם מתחילים ב-/
או ב-*
. - אין להשתמש ב-
$
באמצע ערך (לדוגמה,allow: /file$html
).
צריך לוודא שיש ערך במאפיין user-agent
.
שמות של סוכני משתמש כדי להנחות את הסורקים של מנוע החיפוש אחרי אילו הנחיות צריך לפעול. שלך
חייב לספק ערך לכל מופע של user-agent
כדי שמנועי החיפוש ידעו
האם לעקוב אחר קבוצת ההוראות המשויכת.
כדי לציין סורק ספציפי של מנוע חיפוש, השתמש בשם סוכן משתמש שפורסמה. (לדוגמה, רשימת סוכני המשתמש של Google המשמשים לסריקה).
צריך להשתמש ב-*
כדי להתאים את כל הסורקים שלא נמצאו להם התאמות אחרות.
user-agent: disallow: /downloads/
לא הוגדר סוכן משתמש.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
מוגדרים סוכן משתמש כללי וסוכן משתמש מסוג magicsearchbot
.
צריך לוודא שאין הוראות allow
או disallow
לפני user-agent
שמות של סוכני משתמש מגדירים את הקטעים של קובץ robots.txt
. מנוע חיפוש
הסורקים משתמשים בקטעים האלה כדי לקבוע אחרי אילו הנחיות לעקוב. מיקום
לפני שם סוכן המשתמש הראשון פירושו שאף סורק לא יעקוב
את זה.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
אף סורק של מנועי חיפוש לא יקרא את ההוראה disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
כל מנועי החיפוש לא מורשים לסרוק את התיקייה /downloads
.
סורקים של מנועי חיפוש פועלים רק לפי ההוראות בקטעים הרלוונטיים ביותר
משתמש-סוכן ספציפי. לדוגמה, אם יש לכם הוראות לגבי
user-agent: *
ו-user-agent: Googlebot-Image
, תמונות Googlebot ישתמשו רק
פועלים לפי ההוראות בקטע user-agent: Googlebot-Image
.
עליך לספק כתובת URL מוחלטת עבור sitemap
קובצי Sitemap הם דרך מצוינת ליידע את מנועי החיפוש על דפים באתר שלכם. בדרך כלל קובץ Sitemap כולל רשימה של את כתובות ה-URL באתר שלכם, לצד מידע על המועד האחרון שבו הן היו השתנה.
אם תבחר לשלוח קובץ Sitemap ב-robots.txt
, עליך לוודא
להשתמש בכתובת URL מוחלטת.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml