يحدّد ملف robots.txt
محرّكات البحث أيًا من صفحات موقعك الإلكتروني التي يمكنها الوصول إليها.
زحف. يمكن أن يتسبب ضبط robots.txt
غير صالح في نوعَين من المشاكل:
- فقد يمنع محركات البحث من الزحف إلى الصفحات العامة، مما يتسبب في المحتوى في نتائج البحث بمعدّل أقل.
- يمكن أن يتسبب ذلك في زحف محرّكات البحث إلى صفحات قد لا تريد عرضها في البحث. نتائجك.
أسباب تعذُّر تدقيق Lighthouse robots.txt
علامات Lighthouse غير صالحة
robots.txt
ملفات:
توسيع قسم تدقيق robots.txt
غير صالح في تقريرك
للاطّلاع على المشكلة في robots.txt
.
تشمل الأخطاء الشائعة ما يلي:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
لا تتحقّق أداة Lighthouse من أنّ ملف robots.txt
في الموقع الصحيح. ولكي يعمل الملف بشكلٍ صحيح، يجب أن يكون في جذر
نطاقك أو نطاقك الفرعي.
كيفية حلّ المشاكل المتعلقة بـ "robots.txt
"
تأكَّد من أنّ robots.txt
لا يعرض رمز حالة HTTP 5XX.
إذا كان الخادم يعرض خطأ في الخادم (رمز حالة HTTP)
في 500s) لـ robots.txt
، فلن تعرف محركات البحث الصفحات التي يجب
زحف. وقد تتوقف تلك البرامج عن الزحف إلى كل أقسام موقعك الإلكتروني، ما قد يمنع عمليات جديدة
من فهرسة المحتوى.
للتحقّق من رمز حالة HTTP، افتح robots.txt
في Chrome ثم
راجِع الطلب في "أدوات مطوري البرامج في Chrome".
يجب إبقاء robots.txt
أقل من 500 كيبيبايت
قد تتوقف محركات البحث عن معالجة robots.txt
في منتصف الطريق إذا كان الملف
أكبر من 500 كيبيبايت. وقد يؤدي ذلك إلى إرباك محرك البحث، مما يؤدي إلى تغيير
إلى الزحف إلى موقعك.
لتصغير حجم robots.txt
، ركِّز أقل على الصفحات التي يتم استثناؤها بشكلٍ فردي وغير ذلك.
حول أنماط أوسع. على سبيل المثال، إذا أردت حظر الزحف إلى ملفات PDF،
لا تمنع كل ملف على حدة. بدلاً من ذلك، يمكنك منع جميع عناوين URL التي تحتوي على
.pdf
باستخدام disallow: /*.pdf
.
إصلاح أي أخطاء في التنسيق
- سطور وتعليقات وتوجيهات فارغة فقط تطابق "name: value" التنسيقان هي
مسموح به في
robots.txt
. - تأكَّد من أنّ قيمتَي
allow
وdisallow
فارغتان أو تبدأان بـ/
أو*
. - لا تستخدم
$
في منتصف القيمة (على سبيل المثال،allow: /file$html
).
يُرجى التأكد من توفّر قيمة للحقل "user-agent
".
أسماء وكلاء المستخدم لإخبار برامج زحف محركات البحث بالتوجيهات التي يجب اتباعها إِنْتَ
يجب تقديم قيمة لكل مثيل من user-agent
حتى تعرف محركات البحث
ما إذا كان ستتبع مجموعة الأوامر المرتبطة أم لا.
لتحديد زاحف محرك بحث معين، استخدم اسم وكيل مستخدم من قائمة منشورة. (على سبيل المثال، إليك قائمة Google لوكلاء المستخدم المستخدمة للزحف.)
استخدِم *
لمطابقة جميع برامج الزحف غير المطابقة.
user-agent: disallow: /downloads/
لم يتم تحديد وكيل مستخدم.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
ويتم تحديد وكيل مستخدم عام ووكيل مستخدم magicsearchbot
.
تأكَّد من عدم توفّر توجيه allow
أو disallow
قبل user-agent
.
تحدد أسماء برامج وكيل المستخدم أقسام ملف robots.txt
. محرك البحث
تستخدم برامج الزحف هذه الأقسام لتحديد التوجيهات التي يجب اتباعها. يؤدي وضع
الأمر قبل أول اسم لوكيل المستخدم يعني أنه لن تتبع أي برامج زحف
بها.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
لن يقرأ أي زاحف محرّك بحث التوجيه disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
لا يُسمح لجميع محرّكات البحث بالزحف إلى مجلد "/downloads
".
لا تتبع برامج الزحف في محركات البحث إلا الأوامر في القسم الذي يحتوي على أكبر عدد من
اسم وكيل المستخدم المحدد. على سبيل المثال، إذا كانت لديك توجيهات
user-agent: *
وuser-agent: Googlebot-Image
، سيفتح Googlebot "صور بحث Google" فقط
يجب اتّباع التوجيهات الواردة في القسم user-agent: Googlebot-Image
.
توفير عنوان URL كامل للسمة sitemap
ملفات Sitemap هي وهي طريقة رائعة لإطلاع محركات البحث على الصفحات على موقعك الإلكتروني. يتضمن ملف خريطة الموقع بشكل عام قائمة عناوين URL على موقعك الإلكتروني، بالإضافة إلى معلومات عن آخر مرة بتغييره.
إذا اخترت إرسال خريطة موقع في robots.txt
، احرص على
استخدام عنوان URL كامل
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml