robots.txt सही नहीं है

robots.txt फ़ाइल से सर्च इंजन को यह पता चलता है कि वे आपकी साइट के किन पेजों को ऐक्सेस कर सकते हैं क्रॉल. किसी अमान्य robots.txt कॉन्फ़िगरेशन की वजह से दो तरह की समस्याएं हो सकती हैं:

  • यह सर्च इंजन को सार्वजनिक पेजों को क्रॉल करने से रोक सकता है, जिसकी वजह से खोज नतीजों में कम बार दिखने के लिए कॉन्टेंट.
  • इस वजह से सर्च इंजन उन पेजों को क्रॉल कर सकते हैं जिन्हें आप शायद खोज के नतीजों में न दिखाना चाहें नतीजे.

लाइटहाउस robots.txt ऑडिट कैसे फ़ेल होता है

Lighthouse फ़्लैग अमान्य हैं robots.txt फ़ाइलें:

लाइटहाउस ऑडिट में अमान्य robots.txt दिखाया जा रहा है

अपनी रिपोर्ट में, robots.txt मान्य नहीं है ऑडिट को बड़ा करें यह जानने के लिए कि आपके robots.txt में क्या समस्या है.

सामान्य गड़बड़ियों में ये शामिल हैं:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

लाइटहाउस इस बात की जांच नहीं करता कि आपकी robots.txt फ़ाइल सही जगह पर रखें. सही तरीके से काम करने के लिए, फ़ाइल के रूट में होनी चाहिए आपका डोमेन या सबडोमेन हो.

robots.txt से जुड़ी समस्याएं कैसे ठीक करें

पक्का करें कि robots.txt, एचटीटीपी 5XX स्टेटस कोड न दिखाता हो

अगर आपका सर्वर, सर्वर की गड़बड़ी (एचटीटीपी स्टेटस कोड) लौटाता है के लिए खोज करती है), robots.txt के लिए सर्च इंजन को यह पता नहीं चलेगा कि क्रॉल किया गया. वे आपकी पूरी साइट को क्रॉल करना बंद कर सकते हैं, जो नई साइट को क्रॉल करने से कॉन्टेंट को इंडेक्स न किया जा सके.

एचटीटीपी स्टेटस कोड की जांच करने के लिए, robots.txt को Chrome में खोलें और Chrome DevTools में अनुरोध की जांच करें.

robots.txt को 500 केबी से कम रखें

अगर फ़ाइलrobots.txt 500 केआईबी से ज़्यादा होने चाहिए. यह खोज इंजन को भ्रमित कर सकता है, जो गलत हो सकता है आपकी साइट को क्रॉल किए जाने के बारे में ज़्यादा जानें.

robots.txt को छोटा रखने के लिए, अलग-अलग बाहर रखे गए पेजों पर कम और अन्य चीज़ों पर फ़ोकस करें और ज़्यादा बारीकी से देखें. उदाहरण के लिए, अगर आपको PDF फ़ाइलों को क्रॉल होने से रोकना है, प्रत्येक फ़ाइल को अनुमति न दें. इसके बजाय, ऐसे सभी यूआरएल को अनुमति न दें जिनमें यह शामिल हो disallow: /*.pdf का इस्तेमाल करके .pdf.

फ़ॉर्मैट की गड़बड़ियां ठीक करना

  • "name: value" से मेल खाने वाली सिर्फ़ खाली लाइनें, टिप्पणियां, और निर्देश फ़ॉर्मैट robots.txt में अनुमति है.
  • पक्का करें कि allow और disallow की वैल्यू खाली हों या / या * से शुरू हों.
  • किसी वैल्यू के बीच में $ का इस्तेमाल न करें (उदाहरण के लिए, allow: /file$html).

पक्का करें कि user-agent के लिए कोई वैल्यू डाली गई हो

उपयोगकर्ता-एजेंट के नाम से, सर्च इंजन के क्रॉलर को यह पता चलता है कि उन्हें कौनसे निर्देशों का पालन करना है. आपने लोगों तक पहुंचाया मुफ़्त में user-agent के हर इंस्टेंस के लिए एक वैल्यू देना ज़रूरी है, ताकि सर्च इंजन को यह पता चल सके तय करें कि संबंधित निर्देशों का पालन करना है या नहीं.

किसी विशेष खोज इंजन क्रॉलर को निर्दिष्ट करने के लिए, उसके उपयोगकर्ता-एजेंट नाम का उपयोग करें पब्लिश की गई सूची. (उदाहरण के लिए, यहां क्रॉल करने के लिए इस्तेमाल किए जाने वाले Google के उपयोगकर्ता एजेंट की सूची.)

ऐसे सभी क्रॉलर को मैच करने के लिए * का इस्तेमाल करें जो मेल नहीं खाते हैं.

यह न करें
user-agent:
disallow: /downloads/

कोई उपयोगकर्ता एजेंट तय नहीं किया गया है.

यह करें
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

एक सामान्य उपयोगकर्ता एजेंट और magicsearchbot उपयोगकर्ता एजेंट तय किए जाते हैं.

पक्का करें कि user-agent से पहले कोई allow या disallow डायरेक्टिव न हो

उपयोगकर्ता-एजेंट के नाम आपकी robots.txt फ़ाइल के सेक्शन के बारे में बताते हैं. सर्च इंजन क्रॉलर उन सेक्शन का इस्तेमाल यह तय करने के लिए करते हैं कि उन्हें किन डायरेक्टिव का पालन करना है. किसी पहले उपयोगकर्ता-एजेंट के नाम से पहले डायरेक्टिव का मतलब है कि कोई क्रॉलर फ़ॉलो नहीं करेगा इसे.

यह न करें
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

कोई भी सर्च इंजन क्रॉलर, disallow: /downloads डायरेक्टिव नहीं पढ़ेगा.

यह करें
# start of file
user-agent: *
disallow: /downloads/

सभी सर्च इंजन को /downloads फ़ोल्डर क्रॉल करने की अनुमति नहीं है.

सर्च इंजन के क्रॉलर उस सेक्शन में दिए गए निर्देशों का ही पालन करते हैं जिनमें उपयोगकर्ता-एजेंट का नाम डालें. उदाहरण के लिए, अगर आपके पास user-agent: * और user-agent: Googlebot-Image, Googlebot इमेज सिर्फ़ user-agent: Googlebot-Image सेक्शन में दिए गए निर्देशों का पालन करें.

sitemap के लिए पूरा यूआरएल दें

साइटमैप फ़ाइलें यह सर्च इंजन को आपकी वेबसाइट के पेजों के बारे में बताने का बेहतरीन तरीका है. आम तौर पर, साइटमैप फ़ाइल में आपकी वेबसाइट के यूआरएल के साथ यह जानकारी भी शामिल होनी चाहिए कि वे आखिरी बार कब थे बदल दिया गया है.

अगर आपको robots.txt में साइटमैप फ़ाइल सबमिट करनी है, तो इन चीज़ों का ध्यान रखें पूरे यूआरएल का इस्तेमाल करें.

यह न करें
sitemap: /sitemap-file.xml
यह करें
sitemap: https://example.com/sitemap-file.xml

संसाधन