robots.txt ফাইল সার্চ ইঞ্জিনকে বলে যে তারা আপনার সাইটের কোন পৃষ্ঠাগুলি ক্রল করতে পারে৷ একটি অবৈধ robots.txt কনফিগারেশন দুই ধরনের সমস্যা সৃষ্টি করতে পারে:
- এটি সার্চ ইঞ্জিনগুলিকে সর্বজনীন পৃষ্ঠাগুলি ক্রল করা থেকে বিরত রাখতে পারে, যার ফলে অনুসন্ধান ফলাফলগুলিতে আপনার সামগ্রী কম দেখা যায়৷
- এটি সার্চ ইঞ্জিনগুলিকে এমন পৃষ্ঠাগুলি ক্রল করতে পারে যা আপনি অনুসন্ধান ফলাফলে দেখাতে চান না৷
কিভাবে Lighthouse robots.txt অডিট ব্যর্থ হয়
Lighthouse পতাকা অবৈধ robots.txt ফাইল:

আপনার robots.txt এ কী ভুল আছে তা জানতে আপনার প্রতিবেদনে robots.txt বৈধ অডিট নয় প্রসারিত করুন।
সাধারণ ত্রুটির মধ্যে রয়েছে:
-
No user-agent specified -
Pattern should either be empty, start with "/" or "*" -
Unknown directive -
Invalid sitemap URL -
$ should only be used at the end of the pattern
Lighthouse আপনার robots.txt ফাইল সঠিক অবস্থানে আছে কিনা তা পরীক্ষা করে না। সঠিকভাবে কাজ করার জন্য, ফাইলটি আপনার ডোমেইন বা সাবডোমেনের রুটে থাকা আবশ্যক।
কিভাবে robots.txt এর সমস্যা সমাধান করবেন
নিশ্চিত করুন যে robots.txt একটি HTTP 5XX স্ট্যাটাস কোড ফেরত দেয় না
যদি আপনার সার্ভার robots.txt এর জন্য একটি সার্ভার ত্রুটি (500s-এ একটি HTTP স্ট্যাটাস কোড ) ফেরত দেয়, তাহলে সার্চ ইঞ্জিনগুলি জানতে পারবে না কোন পৃষ্ঠাগুলি ক্রল করা উচিত৷ তারা আপনার সম্পূর্ণ সাইট ক্রল করা বন্ধ করতে পারে, যা নতুন বিষয়বস্তুকে ইন্ডেক্স করা থেকে বাধা দেবে।
HTTP স্ট্যাটাস কোড চেক করতে, Chrome-এ robots.txt খুলুন এবং Chrome DevTools-এ অনুরোধ চেক করুন ।
robots.txt 500 KiB-এর থেকে ছোট রাখুন
ফাইলটি 500 KiB-এর চেয়ে বড় হলে সার্চ ইঞ্জিন মাঝপথে robots.txt প্রক্রিয়া করা বন্ধ করে দিতে পারে। এটি সার্চ ইঞ্জিনকে বিভ্রান্ত করতে পারে, যার ফলে আপনার সাইটের ভুল ক্রলিং হতে পারে।
robots.txt ছোট রাখতে, পৃথকভাবে বাদ দেওয়া পৃষ্ঠাগুলিতে কম ফোকাস করুন এবং বিস্তৃত প্যাটার্নগুলিতে আরও বেশি করুন৷ উদাহরণস্বরূপ, আপনি যদি পিডিএফ ফাইলের ক্রলিং ব্লক করতে চান, তাহলে প্রতিটি পৃথক ফাইলের অনুমতি দেবেন না। পরিবর্তে, disallow: /*.pdf ব্যবহার করে .pdf সমন্বিত সমস্ত URL গুলিকে অনুমোদন না দিন।
যেকোন ফরম্যাটের ত্রুটি ঠিক করুন
-
robots.txtএ "নাম: মান" বিন্যাসের সাথে মেলে শুধুমাত্র খালি লাইন, মন্তব্য এবং নির্দেশাবলী অনুমোদিত। - নিশ্চিত করুন
allowএবংdisallowমানগুলি হয় খালি বা/অথবা*দিয়ে শুরু করুন। - একটি মানের মাঝখানে
$ব্যবহার করবেন না (উদাহরণস্বরূপ,allow: /file$html)।
user-agent জন্য একটি মান আছে তা নিশ্চিত করুন
সার্চ ইঞ্জিন ক্রলারদের কোন নির্দেশাবলী অনুসরণ করতে হবে তা জানাতে ব্যবহারকারী-এজেন্টের নাম। user-agent প্রতিটি উদাহরণের জন্য আপনাকে অবশ্যই একটি মান প্রদান করতে হবে যাতে সার্চ ইঞ্জিনগুলি জানতে পারে যে সংশ্লিষ্ট নির্দেশাবলীর সেট অনুসরণ করতে হবে কিনা।
একটি নির্দিষ্ট সার্চ ইঞ্জিন ক্রলার নির্দিষ্ট করতে, তার প্রকাশিত তালিকা থেকে একটি ব্যবহারকারী-এজেন্ট নাম ব্যবহার করুন। (উদাহরণস্বরূপ, এখানে ক্রলিংয়ের জন্য ব্যবহৃত ব্যবহারকারী-এজেন্টদের Google-এর তালিকা রয়েছে।)
অন্যথায় অতুলনীয় ক্রলারের সাথে মেলাতে * ব্যবহার করুন।
user-agent: disallow: /downloads/
কোন ব্যবহারকারী এজেন্ট সংজ্ঞায়িত করা হয় না.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
একটি সাধারণ ব্যবহারকারী এজেন্ট এবং একটি magicsearchbot ব্যবহারকারী এজেন্ট সংজ্ঞায়িত করা হয়।
user-agent আগে কোনও allow বা disallow নির্দেশিকা আছে তা নিশ্চিত করুন
ব্যবহারকারী-এজেন্টের নাম আপনার robots.txt ফাইলের বিভাগগুলিকে সংজ্ঞায়িত করে৷ অনুসন্ধান ইঞ্জিন ক্রলাররা কোন নির্দেশাবলী অনুসরণ করবে তা নির্ধারণ করতে সেই বিভাগগুলি ব্যবহার করে। প্রথম ব্যবহারকারী-এজেন্ট নামের আগে একটি নির্দেশনা স্থাপনের অর্থ হল কোন ক্রলার এটি অনুসরণ করবে না।
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
কোনো সার্চ ইঞ্জিন ক্রলার disallow: /downloads নির্দেশিকা পড়বে না।
# start of file user-agent: * disallow: /downloads/
সমস্ত সার্চ ইঞ্জিনকে /downloads ফোল্ডারে ক্রল করার অনুমতি দেওয়া হয়নি।
সার্চ ইঞ্জিন ক্রলাররা শুধুমাত্র সবচেয়ে নির্দিষ্ট ব্যবহারকারী-এজেন্ট নামের বিভাগে নির্দেশাবলী অনুসরণ করে। উদাহরণ স্বরূপ, আপনার যদি user-agent: * এবং user-agent: Googlebot-Image এর জন্য নির্দেশনা থাকে, তাহলে Googlebot Images শুধুমাত্র user-agent: Googlebot-Image বিভাগে নির্দেশাবলী অনুসরণ করবে।
sitemap জন্য একটি সম্পূর্ণ URL প্রদান করুন
সাইটম্যাপ ফাইলগুলি সার্চ ইঞ্জিনগুলিকে আপনার ওয়েবসাইটের পৃষ্ঠাগুলি সম্পর্কে জানাতে একটি দুর্দান্ত উপায়৷ একটি সাইটম্যাপ ফাইলে সাধারণত আপনার ওয়েবসাইটের URLগুলির একটি তালিকা থাকে, সেই সাথে সেগুলি শেষ কবে পরিবর্তন করা হয়েছিল সে সম্পর্কে তথ্য।
আপনি যদি robots.txt এ একটি সাইটম্যাপ ফাইল জমা দিতে চান, তাহলে একটি সম্পূর্ণ URL ব্যবহার করতে ভুলবেন না।
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml