robots.txt বৈধ নয়

robots.txt ফাইল সার্চ ইঞ্জিনকে বলে যে তারা আপনার সাইটের কোন পৃষ্ঠাগুলি ক্রল করতে পারে৷ একটি অবৈধ robots.txt কনফিগারেশন দুই ধরনের সমস্যা সৃষ্টি করতে পারে:

  • এটি সার্চ ইঞ্জিনগুলিকে সর্বজনীন পৃষ্ঠাগুলি ক্রল করা থেকে বিরত রাখতে পারে, যার ফলে অনুসন্ধান ফলাফলগুলিতে আপনার সামগ্রী কম দেখা যায়৷
  • এটি সার্চ ইঞ্জিনগুলিকে এমন পৃষ্ঠাগুলি ক্রল করতে পারে যা আপনি অনুসন্ধান ফলাফলে দেখাতে চান না৷

কিভাবে Lighthouse robots.txt অডিট ব্যর্থ হয়

Lighthouse পতাকা অবৈধ robots.txt ফাইল:

Lighthouse অডিট অবৈধ robots.txt দেখাচ্ছে

আপনার robots.txt এ কী ভুল আছে তা জানতে আপনার প্রতিবেদনে robots.txt বৈধ অডিট নয় প্রসারিত করুন।

সাধারণ ত্রুটির মধ্যে রয়েছে:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse আপনার robots.txt ফাইল সঠিক অবস্থানে আছে কিনা তা পরীক্ষা করে না। সঠিকভাবে কাজ করার জন্য, ফাইলটি আপনার ডোমেইন বা সাবডোমেনের রুটে থাকা আবশ্যক।

কিভাবে robots.txt এর সমস্যা সমাধান করবেন

নিশ্চিত করুন যে robots.txt একটি HTTP 5XX স্ট্যাটাস কোড ফেরত দেয় না

যদি আপনার সার্ভার robots.txt এর জন্য একটি সার্ভার ত্রুটি (500s-এ একটি HTTP স্ট্যাটাস কোড ) ফেরত দেয়, তাহলে সার্চ ইঞ্জিনগুলি জানতে পারবে না কোন পৃষ্ঠাগুলি ক্রল করা উচিত৷ তারা আপনার সম্পূর্ণ সাইট ক্রল করা বন্ধ করতে পারে, যা নতুন বিষয়বস্তুকে ইন্ডেক্স করা থেকে বাধা দেবে।

HTTP স্ট্যাটাস কোড চেক করতে, Chrome-এ robots.txt খুলুন এবং Chrome DevTools-এ অনুরোধ চেক করুন

robots.txt 500 KiB-এর থেকে ছোট রাখুন

ফাইলটি 500 KiB-এর চেয়ে বড় হলে সার্চ ইঞ্জিন মাঝপথে robots.txt প্রক্রিয়া করা বন্ধ করে দিতে পারে। এটি সার্চ ইঞ্জিনকে বিভ্রান্ত করতে পারে, যার ফলে আপনার সাইটের ভুল ক্রলিং হতে পারে।

robots.txt ছোট রাখতে, পৃথকভাবে বাদ দেওয়া পৃষ্ঠাগুলিতে কম ফোকাস করুন এবং বিস্তৃত প্যাটার্নগুলিতে আরও বেশি করুন৷ উদাহরণস্বরূপ, আপনি যদি পিডিএফ ফাইলগুলির ক্রলিং ব্লক করতে চান তবে প্রতিটি পৃথক ফাইলকে অনুমোদন করবেন না। পরিবর্তে, disallow: /*.pdf ব্যবহার করে .pdf সমন্বিত সমস্ত URL গুলিকে অনুমোদন না দিন।

যেকোন ফরম্যাটের ত্রুটি ঠিক করুন

  • robots.txt এ "নাম: মান" বিন্যাসের সাথে মেলে শুধুমাত্র খালি লাইন, মন্তব্য এবং নির্দেশাবলী অনুমোদিত।
  • নিশ্চিত করুন allow এবং disallow মানগুলি হয় খালি বা / অথবা * দিয়ে শুরু করুন।
  • একটি মানের মাঝখানে $ ব্যবহার করবেন না (উদাহরণস্বরূপ, allow: /file$html )।

user-agent জন্য একটি মান আছে তা নিশ্চিত করুন

সার্চ ইঞ্জিন ক্রলারদের কোন নির্দেশাবলী অনুসরণ করতে হবে তা জানাতে ব্যবহারকারী-এজেন্টের নাম। user-agent প্রতিটি উদাহরণের জন্য আপনাকে অবশ্যই একটি মান প্রদান করতে হবে যাতে সার্চ ইঞ্জিনগুলি জানতে পারে যে সংশ্লিষ্ট নির্দেশাবলীর সেট অনুসরণ করতে হবে কিনা।

একটি নির্দিষ্ট সার্চ ইঞ্জিন ক্রলার নির্দিষ্ট করতে, তার প্রকাশিত তালিকা থেকে একটি ব্যবহারকারী-এজেন্ট নাম ব্যবহার করুন। (উদাহরণস্বরূপ, এখানে ক্রলিংয়ের জন্য ব্যবহৃত ব্যবহারকারী-এজেন্টদের Google-এর তালিকা রয়েছে।)

অন্যথায় অতুলনীয় ক্রলারের সাথে মেলাতে * ব্যবহার করুন।

করবেন না
user-agent:
disallow: /downloads/

কোন ব্যবহারকারী এজেন্ট সংজ্ঞায়িত করা হয় না.

করবেন
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

একটি সাধারণ ব্যবহারকারী এজেন্ট এবং একটি magicsearchbot ব্যবহারকারী এজেন্ট সংজ্ঞায়িত করা হয়।

user-agent আগে কোনও allow বা disallow নির্দেশিকা আছে তা নিশ্চিত করুন

ব্যবহারকারী-এজেন্টের নাম আপনার robots.txt ফাইলের বিভাগগুলিকে সংজ্ঞায়িত করে৷ অনুসন্ধান ইঞ্জিন ক্রলাররা কোন নির্দেশাবলী অনুসরণ করবে তা নির্ধারণ করতে সেই বিভাগগুলি ব্যবহার করে। প্রথম ব্যবহারকারী-এজেন্ট নামের আগে একটি নির্দেশনা স্থাপনের অর্থ হল কোন ক্রলার এটি অনুসরণ করবে না।

করবেন না
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

কোনো সার্চ ইঞ্জিন ক্রলার disallow: /downloads নির্দেশিকা পড়বে না।

করবেন
# start of file
user-agent: *
disallow: /downloads/

সমস্ত সার্চ ইঞ্জিন /downloads ফোল্ডারে ক্রল করার অনুমতি নেই।

সার্চ ইঞ্জিন ক্রলাররা শুধুমাত্র সবচেয়ে নির্দিষ্ট ব্যবহারকারী-এজেন্ট নামের বিভাগে নির্দেশাবলী অনুসরণ করে। উদাহরণ স্বরূপ, আপনার যদি user-agent: * এবং user-agent: Googlebot-Image এর জন্য নির্দেশনা থাকে, তাহলে Googlebot Images শুধুমাত্র user-agent: Googlebot-Image বিভাগে নির্দেশাবলী অনুসরণ করবে।

sitemap জন্য একটি সম্পূর্ণ URL প্রদান করুন

সাইটম্যাপ ফাইলগুলি সার্চ ইঞ্জিনগুলিকে আপনার ওয়েবসাইটের পৃষ্ঠাগুলি সম্পর্কে জানাতে একটি দুর্দান্ত উপায়৷ একটি সাইটম্যাপ ফাইলে সাধারণত আপনার ওয়েবসাইটের URLগুলির একটি তালিকা থাকে, সেই সাথে সেগুলি শেষ কবে পরিবর্তন করা হয়েছিল সে সম্পর্কে তথ্য।

আপনি যদি robots.txt এ একটি সাইটম্যাপ ফাইল জমা দিতে চান, তাহলে একটি সম্পূর্ণ URL ব্যবহার করতে ভুলবেন না।

করবেন না
sitemap: /sitemap-file.xml
করবেন
sitemap: https://example.com/sitemap-file.xml

সম্পদ