robots.txt फ़ाइल से सर्च इंजन को यह पता चलता है कि वे आपकी साइट के किन पेजों को ऐक्सेस कर सकते हैं
क्रॉल. किसी अमान्य robots.txt कॉन्फ़िगरेशन की वजह से दो तरह की समस्याएं हो सकती हैं:
- यह सर्च इंजन को सार्वजनिक पेजों को क्रॉल करने से रोक सकता है, जिसकी वजह से खोज नतीजों में कम बार दिखने के लिए कॉन्टेंट.
- इस वजह से सर्च इंजन उन पेजों को क्रॉल कर सकते हैं जिन्हें आप शायद खोज के नतीजों में न दिखाना चाहें नतीजे.
लाइटहाउस robots.txt ऑडिट कैसे फ़ेल होता है
Lighthouse फ़्लैग अमान्य हैं
robots.txt फ़ाइलें:
अपनी रिपोर्ट में, robots.txt मान्य नहीं है ऑडिट को बड़ा करें
यह जानने के लिए कि आपके robots.txt में क्या समस्या है.
सामान्य गड़बड़ियों में ये शामिल हैं:
No user-agent specifiedPattern should either be empty, start with "/" or "*"Unknown directiveInvalid sitemap URL$ should only be used at the end of the pattern
लाइटहाउस इस बात की जांच नहीं करता कि आपकी robots.txt फ़ाइल
सही जगह पर रखें. सही तरीके से काम करने के लिए, फ़ाइल के रूट में होनी चाहिए
आपका डोमेन या सबडोमेन हो.
robots.txt से जुड़ी समस्याएं कैसे ठीक करें
पक्का करें कि robots.txt, एचटीटीपी 5XX स्टेटस कोड न दिखाता हो
अगर आपका सर्वर, सर्वर की गड़बड़ी (एचटीटीपी स्टेटस कोड) लौटाता है
के लिए खोज करती है), robots.txt के लिए सर्च इंजन को यह पता नहीं चलेगा कि
क्रॉल किया गया. वे आपकी पूरी साइट को क्रॉल करना बंद कर सकते हैं, जो नई साइट को क्रॉल करने से
कॉन्टेंट को इंडेक्स न किया जा सके.
एचटीटीपी स्टेटस कोड की जांच करने के लिए, robots.txt को Chrome में खोलें और
Chrome DevTools में अनुरोध की जांच करें.
robots.txt को 500 केबी से कम रखें
अगर फ़ाइलrobots.txt
500 केआईबी से ज़्यादा होने चाहिए. यह खोज इंजन को भ्रमित कर सकता है, जो गलत हो सकता है
आपकी साइट को क्रॉल किए जाने के बारे में ज़्यादा जानें.
robots.txt को छोटा रखने के लिए, अलग-अलग बाहर रखे गए पेजों पर कम और अन्य चीज़ों पर फ़ोकस करें
और ज़्यादा बारीकी से देखें. उदाहरण के लिए, अगर आपको PDF फ़ाइलों को क्रॉल होने से रोकना है,
प्रत्येक फ़ाइल को अनुमति न दें. इसके बजाय, ऐसे सभी यूआरएल को अनुमति न दें जिनमें यह शामिल हो
disallow: /*.pdf का इस्तेमाल करके .pdf.
फ़ॉर्मैट की गड़बड़ियां ठीक करना
- "name: value" से मेल खाने वाली सिर्फ़ खाली लाइनें, टिप्पणियां, और निर्देश फ़ॉर्मैट
robots.txtमें अनुमति है. - पक्का करें कि
allowऔरdisallowकी वैल्यू खाली हों या/या*से शुरू हों. - किसी वैल्यू के बीच में
$का इस्तेमाल न करें (उदाहरण के लिए,allow: /file$html).
पक्का करें कि user-agent के लिए कोई वैल्यू डाली गई हो
उपयोगकर्ता-एजेंट के नाम से, सर्च इंजन के क्रॉलर को यह पता चलता है कि उन्हें कौनसे निर्देशों का पालन करना है. आपने लोगों तक पहुंचाया मुफ़्त में
user-agent के हर इंस्टेंस के लिए एक वैल्यू देना ज़रूरी है, ताकि सर्च इंजन को यह पता चल सके
तय करें कि संबंधित निर्देशों का पालन करना है या नहीं.
किसी विशेष खोज इंजन क्रॉलर को निर्दिष्ट करने के लिए, उसके उपयोगकर्ता-एजेंट नाम का उपयोग करें पब्लिश की गई सूची. (उदाहरण के लिए, यहां क्रॉल करने के लिए इस्तेमाल किए जाने वाले Google के उपयोगकर्ता एजेंट की सूची.)
ऐसे सभी क्रॉलर को मैच करने के लिए * का इस्तेमाल करें जो मेल नहीं खाते हैं.
user-agent: disallow: /downloads/
कोई उपयोगकर्ता एजेंट तय नहीं किया गया है.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
एक सामान्य उपयोगकर्ता एजेंट और magicsearchbot उपयोगकर्ता एजेंट तय किए जाते हैं.
पक्का करें कि user-agent से पहले कोई allow या disallow डायरेक्टिव न हो
उपयोगकर्ता-एजेंट के नाम आपकी robots.txt फ़ाइल के सेक्शन के बारे में बताते हैं. सर्च इंजन
क्रॉलर उन सेक्शन का इस्तेमाल यह तय करने के लिए करते हैं कि उन्हें किन डायरेक्टिव का पालन करना है. किसी
पहले उपयोगकर्ता-एजेंट के नाम से पहले डायरेक्टिव का मतलब है कि कोई क्रॉलर फ़ॉलो नहीं करेगा
इसे.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
कोई भी सर्च इंजन क्रॉलर, disallow: /downloads डायरेक्टिव नहीं पढ़ेगा.
# start of file user-agent: * disallow: /downloads/
सभी सर्च इंजन को /downloads फ़ोल्डर क्रॉल करने की अनुमति नहीं है.
सर्च इंजन के क्रॉलर उस सेक्शन में दिए गए निर्देशों का ही पालन करते हैं जिनमें
उपयोगकर्ता-एजेंट का नाम डालें. उदाहरण के लिए, अगर आपके पास
user-agent: * और user-agent: Googlebot-Image, Googlebot इमेज सिर्फ़
user-agent: Googlebot-Image सेक्शन में दिए गए निर्देशों का पालन करें.
sitemap के लिए पूरा यूआरएल दें
साइटमैप फ़ाइलें यह सर्च इंजन को आपकी वेबसाइट के पेजों के बारे में बताने का बेहतरीन तरीका है. आम तौर पर, साइटमैप फ़ाइल में आपकी वेबसाइट के यूआरएल के साथ यह जानकारी भी शामिल होनी चाहिए कि वे आखिरी बार कब थे बदल दिया गया है.
अगर आपको robots.txt में साइटमैप फ़ाइल सबमिट करनी है, तो इन चीज़ों का ध्यान रखें
पूरे यूआरएल का इस्तेमाल करें.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml