robots.txt
ফাইল সার্চ ইঞ্জিনকে বলে যে তারা আপনার সাইটের কোন পৃষ্ঠাগুলি ক্রল করতে পারে৷ একটি অবৈধ robots.txt
কনফিগারেশন দুই ধরনের সমস্যা সৃষ্টি করতে পারে:
- এটি সার্চ ইঞ্জিনগুলিকে সর্বজনীন পৃষ্ঠাগুলি ক্রল করা থেকে বিরত রাখতে পারে, যার ফলে অনুসন্ধান ফলাফলগুলিতে আপনার সামগ্রী কম দেখা যায়৷
- এটি সার্চ ইঞ্জিনগুলিকে এমন পৃষ্ঠাগুলি ক্রল করতে পারে যা আপনি অনুসন্ধান ফলাফলে দেখাতে চান না৷
কিভাবে Lighthouse robots.txt
অডিট ব্যর্থ হয়
Lighthouse পতাকা অবৈধ robots.txt
ফাইল:
আপনার robots.txt
এ কী ভুল আছে তা জানতে আপনার প্রতিবেদনে robots.txt
বৈধ অডিট নয় প্রসারিত করুন।
সাধারণ ত্রুটির মধ্যে রয়েছে:
-
No user-agent specified
-
Pattern should either be empty, start with "/" or "*"
-
Unknown directive
-
Invalid sitemap URL
-
$ should only be used at the end of the pattern
Lighthouse আপনার robots.txt
ফাইল সঠিক অবস্থানে আছে কিনা তা পরীক্ষা করে না। সঠিকভাবে কাজ করার জন্য, ফাইলটি আপনার ডোমেইন বা সাবডোমেনের রুটে থাকা আবশ্যক।
কিভাবে robots.txt
এর সমস্যা সমাধান করবেন
নিশ্চিত করুন যে robots.txt
একটি HTTP 5XX স্ট্যাটাস কোড ফেরত দেয় না
যদি আপনার সার্ভার robots.txt
এর জন্য একটি সার্ভার ত্রুটি (500s-এ একটি HTTP স্ট্যাটাস কোড ) ফেরত দেয়, তাহলে সার্চ ইঞ্জিনগুলি জানতে পারবে না কোন পৃষ্ঠাগুলি ক্রল করা উচিত৷ তারা আপনার সম্পূর্ণ সাইট ক্রল করা বন্ধ করতে পারে, যা নতুন বিষয়বস্তুকে ইন্ডেক্স করা থেকে বাধা দেবে।
HTTP স্ট্যাটাস কোড চেক করতে, Chrome-এ robots.txt
খুলুন এবং Chrome DevTools-এ অনুরোধ চেক করুন ।
robots.txt
500 KiB-এর থেকে ছোট রাখুন
ফাইলটি 500 KiB-এর চেয়ে বড় হলে সার্চ ইঞ্জিন মাঝপথে robots.txt
প্রক্রিয়া করা বন্ধ করে দিতে পারে। এটি সার্চ ইঞ্জিনকে বিভ্রান্ত করতে পারে, যার ফলে আপনার সাইটের ভুল ক্রলিং হতে পারে।
robots.txt
ছোট রাখতে, পৃথকভাবে বাদ দেওয়া পৃষ্ঠাগুলিতে কম ফোকাস করুন এবং বিস্তৃত প্যাটার্নগুলিতে আরও বেশি করুন৷ উদাহরণস্বরূপ, আপনি যদি পিডিএফ ফাইলগুলির ক্রলিং ব্লক করতে চান তবে প্রতিটি পৃথক ফাইলকে অনুমোদন করবেন না। পরিবর্তে, disallow: /*.pdf
ব্যবহার করে .pdf
সমন্বিত সমস্ত URL গুলিকে অনুমোদন না দিন।
যেকোন ফরম্যাটের ত্রুটি ঠিক করুন
-
robots.txt
এ "নাম: মান" বিন্যাসের সাথে মেলে শুধুমাত্র খালি লাইন, মন্তব্য এবং নির্দেশাবলী অনুমোদিত। - নিশ্চিত করুন
allow
এবংdisallow
মানগুলি হয় খালি বা/
অথবা*
দিয়ে শুরু করুন। - একটি মানের মাঝখানে
$
ব্যবহার করবেন না (উদাহরণস্বরূপ,allow: /file$html
)।
user-agent
জন্য একটি মান আছে তা নিশ্চিত করুন
সার্চ ইঞ্জিন ক্রলারদের কোন নির্দেশাবলী অনুসরণ করতে হবে তা জানাতে ব্যবহারকারী-এজেন্টের নাম। user-agent
প্রতিটি উদাহরণের জন্য আপনাকে অবশ্যই একটি মান প্রদান করতে হবে যাতে সার্চ ইঞ্জিনগুলি জানতে পারে যে সংশ্লিষ্ট নির্দেশাবলীর সেট অনুসরণ করতে হবে কিনা।
একটি নির্দিষ্ট সার্চ ইঞ্জিন ক্রলার নির্দিষ্ট করতে, তার প্রকাশিত তালিকা থেকে একটি ব্যবহারকারী-এজেন্ট নাম ব্যবহার করুন। (উদাহরণস্বরূপ, এখানে ক্রলিংয়ের জন্য ব্যবহৃত ব্যবহারকারী-এজেন্টদের Google-এর তালিকা রয়েছে।)
অন্যথায় অতুলনীয় ক্রলারের সাথে মেলাতে *
ব্যবহার করুন।
user-agent: disallow: /downloads/
কোন ব্যবহারকারী এজেন্ট সংজ্ঞায়িত করা হয় না.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
একটি সাধারণ ব্যবহারকারী এজেন্ট এবং একটি magicsearchbot
ব্যবহারকারী এজেন্ট সংজ্ঞায়িত করা হয়।
user-agent
আগে কোনও allow
বা disallow
নির্দেশিকা আছে তা নিশ্চিত করুন
ব্যবহারকারী-এজেন্টের নাম আপনার robots.txt
ফাইলের বিভাগগুলিকে সংজ্ঞায়িত করে৷ অনুসন্ধান ইঞ্জিন ক্রলাররা কোন নির্দেশাবলী অনুসরণ করবে তা নির্ধারণ করতে সেই বিভাগগুলি ব্যবহার করে। প্রথম ব্যবহারকারী-এজেন্ট নামের আগে একটি নির্দেশনা স্থাপনের অর্থ হল কোন ক্রলার এটি অনুসরণ করবে না।
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
কোনো সার্চ ইঞ্জিন ক্রলার disallow: /downloads
নির্দেশিকা পড়বে না।
# start of file user-agent: * disallow: /downloads/
সমস্ত সার্চ ইঞ্জিন /downloads
ফোল্ডারে ক্রল করার অনুমতি নেই।
সার্চ ইঞ্জিন ক্রলাররা শুধুমাত্র সবচেয়ে নির্দিষ্ট ব্যবহারকারী-এজেন্ট নামের বিভাগে নির্দেশাবলী অনুসরণ করে। উদাহরণ স্বরূপ, আপনার যদি user-agent: *
এবং user-agent: Googlebot-Image
এর জন্য নির্দেশনা থাকে, তাহলে Googlebot Images শুধুমাত্র user-agent: Googlebot-Image
বিভাগে নির্দেশাবলী অনুসরণ করবে।
sitemap
জন্য একটি সম্পূর্ণ URL প্রদান করুন
সাইটম্যাপ ফাইলগুলি সার্চ ইঞ্জিনগুলিকে আপনার ওয়েবসাইটের পৃষ্ঠাগুলি সম্পর্কে জানাতে একটি দুর্দান্ত উপায়৷ একটি সাইটম্যাপ ফাইলে সাধারণত আপনার ওয়েবসাইটের URLগুলির একটি তালিকা থাকে, সেই সাথে সেগুলি শেষ কবে পরিবর্তন করা হয়েছিল সে সম্পর্কে তথ্য।
আপনি যদি robots.txt
এ একটি সাইটম্যাপ ফাইল জমা দিতে চান, তাহলে একটি সম্পূর্ণ URL ব্যবহার করতে ভুলবেন না।
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml