robots.txt
फ़ाइल से सर्च इंजन को यह पता चलता है कि वे आपकी साइट के किन पेजों को ऐक्सेस कर सकते हैं
क्रॉल. किसी अमान्य robots.txt
कॉन्फ़िगरेशन की वजह से दो तरह की समस्याएं हो सकती हैं:
- यह सर्च इंजन को सार्वजनिक पेजों को क्रॉल करने से रोक सकता है, जिसकी वजह से खोज नतीजों में कम बार दिखने के लिए कॉन्टेंट.
- इस वजह से सर्च इंजन उन पेजों को क्रॉल कर सकते हैं जिन्हें आप शायद खोज के नतीजों में न दिखाना चाहें नतीजे.
लाइटहाउस robots.txt
ऑडिट कैसे फ़ेल होता है
Lighthouse फ़्लैग अमान्य हैं
robots.txt
फ़ाइलें:
अपनी रिपोर्ट में, robots.txt
मान्य नहीं है ऑडिट को बड़ा करें
यह जानने के लिए कि आपके robots.txt
में क्या समस्या है.
सामान्य गड़बड़ियों में ये शामिल हैं:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
लाइटहाउस इस बात की जांच नहीं करता कि आपकी robots.txt
फ़ाइल
सही जगह पर रखें. सही तरीके से काम करने के लिए, फ़ाइल के रूट में होनी चाहिए
आपका डोमेन या सबडोमेन हो.
robots.txt
से जुड़ी समस्याएं कैसे ठीक करें
पक्का करें कि robots.txt
, एचटीटीपी 5XX स्टेटस कोड न दिखाता हो
अगर आपका सर्वर, सर्वर की गड़बड़ी (एचटीटीपी स्टेटस कोड) लौटाता है
के लिए खोज करती है), robots.txt
के लिए सर्च इंजन को यह पता नहीं चलेगा कि
क्रॉल किया गया. वे आपकी पूरी साइट को क्रॉल करना बंद कर सकते हैं, जो नई साइट को क्रॉल करने से
कॉन्टेंट को इंडेक्स न किया जा सके.
एचटीटीपी स्टेटस कोड की जांच करने के लिए, robots.txt
को Chrome में खोलें और
Chrome DevTools में अनुरोध की जांच करें.
robots.txt
को 500 केबी से कम रखें
अगर फ़ाइलrobots.txt
500 केआईबी से ज़्यादा होने चाहिए. यह खोज इंजन को भ्रमित कर सकता है, जो गलत हो सकता है
आपकी साइट को क्रॉल किए जाने के बारे में ज़्यादा जानें.
robots.txt
को छोटा रखने के लिए, अलग-अलग बाहर रखे गए पेजों पर कम और अन्य चीज़ों पर फ़ोकस करें
और ज़्यादा बारीकी से देखें. उदाहरण के लिए, अगर आपको PDF फ़ाइलों को क्रॉल होने से रोकना है,
प्रत्येक फ़ाइल को अनुमति न दें. इसके बजाय, ऐसे सभी यूआरएल को अनुमति न दें जिनमें यह शामिल हो
disallow: /*.pdf
का इस्तेमाल करके .pdf
.
फ़ॉर्मैट की गड़बड़ियां ठीक करना
- "name: value" से मेल खाने वाली सिर्फ़ खाली लाइनें, टिप्पणियां, और निर्देश फ़ॉर्मैट
robots.txt
में अनुमति है. - पक्का करें कि
allow
औरdisallow
की वैल्यू खाली हों या/
या*
से शुरू हों. - किसी वैल्यू के बीच में
$
का इस्तेमाल न करें (उदाहरण के लिए,allow: /file$html
).
पक्का करें कि user-agent
के लिए कोई वैल्यू डाली गई हो
उपयोगकर्ता-एजेंट के नाम से, सर्च इंजन के क्रॉलर को यह पता चलता है कि उन्हें कौनसे निर्देशों का पालन करना है. आपने लोगों तक पहुंचाया मुफ़्त में
user-agent
के हर इंस्टेंस के लिए एक वैल्यू देना ज़रूरी है, ताकि सर्च इंजन को यह पता चल सके
तय करें कि संबंधित निर्देशों का पालन करना है या नहीं.
किसी विशेष खोज इंजन क्रॉलर को निर्दिष्ट करने के लिए, उसके उपयोगकर्ता-एजेंट नाम का उपयोग करें पब्लिश की गई सूची. (उदाहरण के लिए, यहां क्रॉल करने के लिए इस्तेमाल किए जाने वाले Google के उपयोगकर्ता एजेंट की सूची.)
ऐसे सभी क्रॉलर को मैच करने के लिए *
का इस्तेमाल करें जो मेल नहीं खाते हैं.
user-agent: disallow: /downloads/
कोई उपयोगकर्ता एजेंट तय नहीं किया गया है.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
एक सामान्य उपयोगकर्ता एजेंट और magicsearchbot
उपयोगकर्ता एजेंट तय किए जाते हैं.
पक्का करें कि user-agent
से पहले कोई allow
या disallow
डायरेक्टिव न हो
उपयोगकर्ता-एजेंट के नाम आपकी robots.txt
फ़ाइल के सेक्शन के बारे में बताते हैं. सर्च इंजन
क्रॉलर उन सेक्शन का इस्तेमाल यह तय करने के लिए करते हैं कि उन्हें किन डायरेक्टिव का पालन करना है. किसी
पहले उपयोगकर्ता-एजेंट के नाम से पहले डायरेक्टिव का मतलब है कि कोई क्रॉलर फ़ॉलो नहीं करेगा
इसे.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
कोई भी सर्च इंजन क्रॉलर, disallow: /downloads
डायरेक्टिव नहीं पढ़ेगा.
# start of file user-agent: * disallow: /downloads/
सभी सर्च इंजन को /downloads
फ़ोल्डर क्रॉल करने की अनुमति नहीं है.
सर्च इंजन के क्रॉलर उस सेक्शन में दिए गए निर्देशों का ही पालन करते हैं जिनमें
उपयोगकर्ता-एजेंट का नाम डालें. उदाहरण के लिए, अगर आपके पास
user-agent: *
और user-agent: Googlebot-Image
, Googlebot इमेज सिर्फ़
user-agent: Googlebot-Image
सेक्शन में दिए गए निर्देशों का पालन करें.
sitemap
के लिए पूरा यूआरएल दें
साइटमैप फ़ाइलें यह सर्च इंजन को आपकी वेबसाइट के पेजों के बारे में बताने का बेहतरीन तरीका है. आम तौर पर, साइटमैप फ़ाइल में आपकी वेबसाइट के यूआरएल के साथ यह जानकारी भी शामिल होनी चाहिए कि वे आखिरी बार कब थे बदल दिया गया है.
अगर आपको robots.txt
में साइटमैप फ़ाइल सबमिट करनी है, तो इन चीज़ों का ध्यान रखें
पूरे यूआरएल का इस्तेमाल करें.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml