ملف robots.txt غير صالح

يحدّد ملف robots.txt محرّكات البحث أيًا من صفحات موقعك الإلكتروني التي يمكنها الوصول إليها. زحف. يمكن أن يتسبب ضبط robots.txt غير صالح في نوعَين من المشاكل:

  • فقد يمنع محركات البحث من الزحف إلى الصفحات العامة، مما يتسبب في المحتوى في نتائج البحث بمعدّل أقل.
  • يمكن أن يتسبب ذلك في زحف محرّكات البحث إلى صفحات قد لا تريد عرضها في البحث. نتائجك.

أسباب تعذُّر تدقيق Lighthouse robots.txt

علامات Lighthouse غير صالحة robots.txt ملفات:

تدقيق في أداة Lighthouse يُظهر ملف robots.txt غير صالح

توسيع قسم تدقيق robots.txt غير صالح في تقريرك للاطّلاع على المشكلة في robots.txt.

تشمل الأخطاء الشائعة ما يلي:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

لا تتحقّق أداة Lighthouse من أنّ ملف robots.txt في الموقع الصحيح. ولكي يعمل الملف بشكلٍ صحيح، يجب أن يكون في جذر نطاقك أو نطاقك الفرعي.

كيفية حلّ المشاكل المتعلقة بـ "robots.txt"

تأكَّد من أنّ robots.txt لا يعرض رمز حالة HTTP 5XX.

إذا كان الخادم يعرض خطأ في الخادم (رمز حالة HTTP) في 500s) لـ robots.txt، فلن تعرف محركات البحث الصفحات التي يجب زحف. وقد تتوقف تلك البرامج عن الزحف إلى كل أقسام موقعك الإلكتروني، ما قد يمنع عمليات جديدة من فهرسة المحتوى.

للتحقّق من رمز حالة HTTP، افتح robots.txt في Chrome ثم راجِع الطلب في "أدوات مطوري البرامج في Chrome".

يجب إبقاء robots.txt أقل من 500 كيبيبايت

قد تتوقف محركات البحث عن معالجة robots.txt في منتصف الطريق إذا كان الملف أكبر من 500 كيبيبايت. وقد يؤدي ذلك إلى إرباك محرك البحث، مما يؤدي إلى تغيير إلى الزحف إلى موقعك.

لتصغير حجم robots.txt، ركِّز أقل على الصفحات التي يتم استثناؤها بشكلٍ فردي وغير ذلك. حول أنماط أوسع. على سبيل المثال، إذا أردت حظر الزحف إلى ملفات PDF، لا تمنع كل ملف على حدة. بدلاً من ذلك، يمكنك منع جميع عناوين URL التي تحتوي على .pdf باستخدام disallow: /*.pdf.

إصلاح أي أخطاء في التنسيق

  • سطور وتعليقات وتوجيهات فارغة فقط تطابق "name: value" التنسيقان هي مسموح به في robots.txt.
  • تأكَّد من أنّ قيمتَي allow وdisallow فارغتان أو تبدأان بـ / أو *.
  • لا تستخدم $ في منتصف القيمة (على سبيل المثال، allow: /file$html).

يُرجى التأكد من توفّر قيمة للحقل "user-agent".

أسماء وكلاء المستخدم لإخبار برامج زحف محركات البحث بالتوجيهات التي يجب اتباعها إِنْتَ يجب تقديم قيمة لكل مثيل من user-agent حتى تعرف محركات البحث ما إذا كان ستتبع مجموعة الأوامر المرتبطة أم لا.

لتحديد زاحف محرك بحث معين، استخدم اسم وكيل مستخدم من قائمة منشورة. (على سبيل المثال، إليك قائمة Google لوكلاء المستخدم المستخدمة للزحف.)

استخدِم * لمطابقة جميع برامج الزحف غير المطابقة.

الإجراءات غير المُوصى بها
user-agent:
disallow: /downloads/

لم يتم تحديد وكيل مستخدم.

الإجراءات الموصى بها
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

ويتم تحديد وكيل مستخدم عام ووكيل مستخدم magicsearchbot.

تأكَّد من عدم توفّر توجيه allow أو disallow قبل user-agent.

تحدد أسماء برامج وكيل المستخدم أقسام ملف robots.txt. محرك البحث تستخدم برامج الزحف هذه الأقسام لتحديد التوجيهات التي يجب اتباعها. يؤدي وضع الأمر قبل أول اسم لوكيل المستخدم يعني أنه لن تتبع أي برامج زحف بها.

الإجراءات غير المُوصى بها
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

لن يقرأ أي زاحف محرّك بحث التوجيه disallow: /downloads.

الإجراءات الموصى بها
# start of file
user-agent: *
disallow: /downloads/

لا يُسمح لجميع محرّكات البحث بالزحف إلى مجلد "/downloads".

لا تتبع برامج الزحف في محركات البحث إلا الأوامر في القسم الذي يحتوي على أكبر عدد من اسم وكيل المستخدم المحدد. على سبيل المثال، إذا كانت لديك توجيهات user-agent: * وuser-agent: Googlebot-Image، سيفتح Googlebot "صور بحث Google" فقط يجب اتّباع التوجيهات الواردة في القسم user-agent: Googlebot-Image.

توفير عنوان URL كامل للسمة sitemap

ملفات Sitemap هي وهي طريقة رائعة لإطلاع محركات البحث على الصفحات على موقعك الإلكتروني. يتضمن ملف خريطة الموقع بشكل عام قائمة عناوين URL على موقعك الإلكتروني، بالإضافة إلى معلومات عن آخر مرة بتغييره.

إذا اخترت إرسال خريطة موقع في robots.txt، احرص على استخدام عنوان URL كامل

الإجراءات غير المُوصى بها
sitemap: /sitemap-file.xml
الإجراءات الموصى بها
sitemap: https://example.com/sitemap-file.xml

الموارد