robots.txt
फ़ाइल से सर्च इंजन को यह पता चलता है कि वे आपकी साइट के किन पेजों को क्रॉल कर सकते हैं. robots.txt
के अमान्य कॉन्फ़िगरेशन की वजह से, दो तरह की समस्याएं हो सकती हैं:
- यह सर्च इंजन को सार्वजनिक पेजों को क्रॉल करने से रोक सकता है, जिससे खोज नतीजों में आपका कॉन्टेंट कम बार दिखता है.
- इससे सर्च इंजन उन पेजों को क्रॉल कर सकते हैं जिन्हें शायद आप खोज के नतीजों में न दिखाना चाहें.
Lighthouse robots.txt
का ऑडिट कैसे फ़ेल हो जाता है
Lighthouse फ़्लैग अमान्य है
robots.txt
फ़ाइलें:
आपके robots.txt
में क्या गड़बड़ी है, यह जानने के लिए अपनी रिपोर्ट में robots.txt
मान्य नहीं है ऑडिट को बड़ा करें.
सामान्य गड़बड़ियों में ये शामिल हैं:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
लाइटहाउस यह जांच नहीं करता कि आपकी robots.txt
फ़ाइल
सही जगह पर है या नहीं. ठीक से काम करने के लिए, फ़ाइल
आपके डोमेन या सबडोमेन के रूट में होनी चाहिए.
robots.txt
से जुड़ी समस्याएं कैसे ठीक करें
पक्का करें कि robots.txt
एचटीटीपी 5XX स्टेटस कोड न दिखाता हो
अगर आपका सर्वर robots.txt
के लिए सर्वर की गड़बड़ी (500 के दशक में एचटीटीपी स्टेटस कोड) दिखाता है, तो सर्च इंजन को यह नहीं पता चलेगा कि किन पेजों को क्रॉल किया जाना चाहिए. वे आपकी पूरी साइट को क्रॉल करना बंद कर सकते हैं, जिससे नया कॉन्टेंट इंडेक्स नहीं हो पाएगा.
एचटीटीपी स्टेटस कोड देखने के लिए, Chrome में robots.txt
खोलें और
Chrome DevTools में अनुरोध देखें.
robots.txt
को 500 केबी से कम रखें
अगर फ़ाइल का साइज़ 500 KiB से ज़्यादा है, तो सर्च इंजन robots.txt
को बीच में ही प्रोसेस करना बंद कर सकते हैं. इससे सर्च इंजन उलझन में पड़ सकता है और आपकी साइट को गलत तरीके से क्रॉल किया जा सकता है.
robots.txt
को छोटा रखने के लिए, अलग-अलग शामिल न किए गए पेजों पर कम ध्यान दें और बड़े पैटर्न पर ज़्यादा ध्यान दें. उदाहरण के लिए, अगर आपको PDF फ़ाइलों को क्रॉल करने से रोकना है,
तो हर फ़ाइल को क्रॉल करने की अनुमति न दें. इसके बजाय, disallow: /*.pdf
का इस्तेमाल करके .pdf
वाले सभी यूआरएल पर रोक लगाएं.
फ़ॉर्मैट की सभी गड़बड़ियां ठीक करना
robots.txt
में सिर्फ़ खाली लाइनों, टिप्पणियों, और "नाम: वैल्यू" फ़ॉर्मैट से मेल खाने वाले डायरेक्टिव की अनुमति है.- पक्का करें कि
allow
औरdisallow
वैल्यू खाली हों या/
या*
से शुरू हों. - वैल्यू के बीच में
$
का इस्तेमाल न करें. जैसे,allow: /file$html
.
पक्का करें कि user-agent
के लिए एक वैल्यू हो
उपयोगकर्ता-एजेंट के नाम, ताकि सर्च इंजन के क्रॉलर को यह बताया जा सके कि किन निर्देशों का पालन करना है. आपको
user-agent
के हर इंस्टेंस के लिए एक वैल्यू देनी होगी, ताकि सर्च इंजन को पता चल सके कि
निर्देशों के साथ जुड़े सेट का पालन करना है या नहीं.
किसी खास सर्च इंजन क्रॉलर के बारे में बताने के लिए, उसकी पब्लिश की गई सूची में से उपयोगकर्ता-एजेंट का नाम इस्तेमाल करें. (उदाहरण के लिए, यहां क्रॉल करने के लिए इस्तेमाल किए जाने वाले उपयोगकर्ता-एजेंट की Google की सूची दी गई है.)
अन्य सभी बेमेल क्रॉलर से मिलान करने के लिए *
का इस्तेमाल करें.
user-agent: disallow: /downloads/
कोई उपयोगकर्ता एजेंट तय नहीं किया गया है.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
सामान्य उपयोगकर्ता एजेंट और magicsearchbot
उपयोगकर्ता एजेंट को तय किया जाता है.
पक्का करें कि user-agent
से पहले, allow
या disallow
कोई निर्देश न हो
उपयोगकर्ता-एजेंट के नाम, आपकी robots.txt
फ़ाइल के सेक्शन के बारे में बताते हैं. सर्च इंजन
क्रॉलर उन सेक्शन का इस्तेमाल करके, यह तय करते हैं कि किन निर्देशों का पालन करना है. पहले उपयोगकर्ता-एजेंट के नाम से पहले कोई निर्देश जोड़ने का मतलब है कि कोई भी क्रॉलर उसे फ़ॉलो नहीं करेगा.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
कोई भी सर्च इंजन क्रॉलर disallow: /downloads
डायरेक्टिव को नहीं पढ़ेगा.
# start of file user-agent: * disallow: /downloads/
सभी सर्च इंजन को, /downloads
फ़ोल्डर को क्रॉल करने की अनुमति नहीं है.
सर्च इंजन क्रॉलर, उपयोगकर्ता-एजेंट के सबसे खास नाम वाले सेक्शन में दिए गए निर्देशों का ही पालन करते हैं. उदाहरण के लिए, अगर आपके पास user-agent: *
और user-agent: Googlebot-Image
के लिए निर्देश हैं, तो Googlebot इमेज सिर्फ़ user-agent: Googlebot-Image
सेक्शन के निर्देशों का पालन करेगी.
sitemap
के लिए पूरा यूआरएल दें
साइटमैप फ़ाइलें, सर्च इंजन को आपकी वेबसाइट के पेजों के बारे में बताने का एक बेहतरीन तरीका है. आम तौर पर, साइटमैप फ़ाइल में आपकी वेबसाइट के यूआरएल की सूची होती है. इसमें यह जानकारी भी होती है कि यूआरएल में पिछली बार कब बदलाव किया गया था.
अगर आपको robots.txt
में साइटमैप फ़ाइल सबमिट करनी है, तो पक्का करें कि आप एब्सलूट यूआरएल का इस्तेमाल करें.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml