דף זה תורגם על ידי Cloud Translation API.

robots.txt לא חוקי

הקובץ robots.txt מורה למנועי החיפוש אילו מדפי האתר שלך הם יכולים לסרוק. הגדרה לא תקינה של robots.txt עלולה לגרום לשני סוגים של בעיות:

היא יכולה למנוע ממנועי חיפוש לסרוק דפים ציבוריים, וזה גורם לתוכן שיופיע בתדירות נמוכה יותר בתוצאות חיפוש.
היא עלולה לגרום למנועי חיפוש לסרוק דפים שייתכן שאתם לא רוצים שיוצגו בחיפוש תוצאות.

איך הבדיקה של `robots.txt` במסגרת Lighthouse נכשלה

סימוני Lighthouse לא חוקיים robots.txt קבצים:

ביקורת Lighthouse שבה מוצג קובץ robots.txt לא תקין

הערה: רוב הבדיקות של Lighthouse רלוונטיות רק לדף שבו נמצאים כרגע. עם זאת, מכיוון ש-robots.txt מוגדר ברמת שם המארח, הביקורת הזו חלה על כל הדומיין (או על תת-הדומיין שלכם).

מרחיבים את הביקורת robots.txt לא תקינה בדוח כדי לבדוק מה הבעיה עם robots.txt.

דוגמאות לשגיאות נפוצות:

No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

מערכת Lighthouse לא בודקת שהקובץ robots.txt במיקום הנכון. כדי לפעול כראוי, הקובץ חייב להיות ברמה הבסיסית (root) של הדומיין או תת-הדומיין שלך.

איך לפתור בעיות עם `robots.txt`

מוודאים ש-`robots.txt` לא מחזיר קוד סטטוס HTTP 5XX

אם השרת מחזיר שגיאת שרת (קוד סטטוס HTTP) של 500 השניות) עבור robots.txt, מנועי החיפוש לא ידעו אילו דפים נסרק. הם עשויים להפסיק לסרוק את האתר כולו, וכך תמנע הוספה לאינדקס.

כדי לבדוק את קוד הסטטוס של HTTP, צריך לפתוח את robots.txt ב-Chrome ואז בודקים את הבקשה בכלי הפיתוח ל-Chrome.

הקטנה של `robots.txt` מ-500KiB

מנועי חיפוש עשויים להפסיק לעבד robots.txt באמצע התהליך אם הקובץ שגדול מ-500KiB. הדבר עלול לבלבל את מנוע החיפוש, דבר שיוביל לחיפוש שגוי של סריקת האתר שלכם.

כדי להקטין את robots.txt, כדאי להתמקד פחות בדפים מוחרגים ספציפיים ועוד על דפוסים רחבים יותר. לדוגמה, אם אתם צריכים לחסום סריקה של קובצי PDF, אין חסימה של כל קובץ בנפרד. במקום זאת, אסור להשתמש בכל כתובות ה-URL שמכילות .pdf באמצעות disallow: /*.pdf.

מתקנים שגיאות בפורמט

רק שורות ריקות, הערות והוראות שתואמות ל-'name: value' הפורמטים הם מותרת בrobots.txt.
צריך לוודא שהערכים allow ו-disallow ריקים או שהם מתחילים ב-/ או ב-*.
אין להשתמש ב-$ באמצע ערך (לדוגמה, allow: /file$html).

צריך לוודא שיש ערך במאפיין `user-agent`.

שמות של סוכני משתמש כדי להנחות את הסורקים של מנוע החיפוש אחרי אילו הנחיות צריך לפעול. שלך חייב לספק ערך לכל מופע של user-agent כדי שמנועי החיפוש ידעו האם לעקוב אחר קבוצת ההוראות המשויכת.

כדי לציין סורק ספציפי של מנוע חיפוש, השתמש בשם סוכן משתמש שפורסמה. (לדוגמה, רשימת סוכני המשתמש של Google המשמשים לסריקה).

צריך להשתמש ב-* כדי להתאים את כל הסורקים שלא נמצאו להם התאמות אחרות.

מה אסור לעשות

user-agent:
disallow: /downloads/

לא הוגדר סוכן משתמש.

מה מותר לעשות

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

מוגדרים סוכן משתמש כללי וסוכן משתמש מסוג magicsearchbot.

צריך לוודא שאין הוראות `allow` או `disallow` לפני `user-agent`

שמות של סוכני משתמש מגדירים את הקטעים של קובץ robots.txt. מנוע חיפוש הסורקים משתמשים בקטעים האלה כדי לקבוע אחרי אילו הנחיות לעקוב. מיקום לפני שם סוכן המשתמש הראשון פירושו שאף סורק לא יעקוב את זה.

מה אסור לעשות

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

אף סורק של מנועי חיפוש לא יקרא את ההוראה disallow: /downloads.

מה מותר לעשות

# start of file
user-agent: *
disallow: /downloads/

כל מנועי החיפוש לא מורשים לסרוק את התיקייה /downloads.

סורקים של מנועי חיפוש פועלים רק לפי ההוראות בקטעים הרלוונטיים ביותר משתמש-סוכן ספציפי. לדוגמה, אם יש לכם הוראות לגבי user-agent: * ו-user-agent: Googlebot-Image, תמונות Googlebot ישתמשו רק פועלים לפי ההוראות בקטע user-agent: Googlebot-Image.

עליך לספק כתובת URL מוחלטת עבור `sitemap`

קובצי Sitemap הם דרך מצוינת ליידע את מנועי החיפוש על דפים באתר שלכם. בדרך כלל קובץ Sitemap כולל רשימה של את כתובות ה-URL באתר שלכם, לצד מידע על המועד האחרון שבו הן היו השתנה.

אם תבחר לשלוח קובץ Sitemap ב-robots.txt, עליך לוודא להשתמש בכתובת URL מוחלטת.

מה אסור לעשות

sitemap: /sitemap-file.xml

מה מותר לעשות

sitemap: https://example.com/sitemap-file.xml

robots.txt לא חוקי קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

איך הבדיקה של robots.txt במסגרת Lighthouse נכשלה

איך לפתור בעיות עם robots.txt

מוודאים ש-robots.txt לא מחזיר קוד סטטוס HTTP 5XX

הקטנה של robots.txt מ-500KiB

מתקנים שגיאות בפורמט

צריך לוודא שיש ערך במאפיין user-agent.

צריך לוודא שאין הוראות allow או disallow לפני user-agent

עליך לספק כתובת URL מוחלטת עבור sitemap

משאבים

robots.txt לא חוקי

איך הבדיקה של `robots.txt` במסגרת Lighthouse נכשלה

איך לפתור בעיות עם `robots.txt`

מוודאים ש-`robots.txt` לא מחזיר קוד סטטוס HTTP 5XX

הקטנה של `robots.txt` מ-500KiB

צריך לוודא שיש ערך במאפיין `user-agent`.

צריך לוודא שאין הוראות `allow` או `disallow` לפני `user-agent`

עליך לספק כתובת URL מוחלטת עבור `sitemap`