কী থাকবে, কী যাবে: এলএলএম-এর নতুন বিশ্বের সাথে আপনার ওয়েব টেস্টিং জ্ঞানকে মানিয়ে নেওয়া।
উদাহরণ অ্যাপ্লিকেশন
এই সিরিজ জুড়ে থিমবিল্ডার হলো আপনার উদাহরণ অ্যাপ্লিকেশন। থিমবিল্ডার একটি JSON অবজেক্ট আউটপুট করে, যাতে LLM দ্বারা তৈরি একটি মূলমন্ত্র এবং একটি কালার প্যালেট থাকে।
- মূলমন্ত্র এবং রঙের ব্যবহার অবশ্যই প্রদত্ত ব্র্যান্ডের নাম, বিবরণ, দর্শক এবং ভাবভঙ্গির সাথে মিলতে হবে।
- নীতিবাক্যটি আপত্তিকর হওয়া উচিত নয় এবং অবশ্যই সংক্ষিপ্ত (৬ শব্দের কম) হতে হবে।
- WCAG-এর ন্যূনতম নির্দেশিকা অনুযায়ী, কালার প্যালেটের কনট্রাস্ট অবশ্যই ৪.৫:১ কনট্রাস্ট রেশিও সহ অ্যাক্সেসিবল হতে হবে।

বস্তুনিষ্ঠ এবং বিষয়ভিত্তিক মূল্যায়ন
থিমবিল্ডারটি উদ্দেশ্য অনুযায়ী কাজ করছে কিনা, তা আপনি কীভাবে পরীক্ষা করেন?
নিয়ম-ভিত্তিক মূল্যায়ন (কখনও কখনও নির্ভুল মূল্যায়নও বলা হয়) হলো এমন নৈর্ব্যক্তিক পরীক্ষা যার উত্তর হয় সঠিক বা ভুল। ডেটার বিন্যাস, বৈসাদৃশ্য অনুপাত বা এই জাতীয় সুনির্দিষ্ট উত্তর আছে এমন প্রশ্নের জন্য এগুলো সবচেয়ে ভালো। আপনি সাধারণ প্রোগ্রামিং কোড ব্যবহার করে এই পরীক্ষাগুলো বাস্তবায়ন করতে পারেন।
কিছু চেক বস্তুনিষ্ঠ হয়, যার উত্তর হয় সঠিক বা ভুল। ডেটা ফরম্যাট, কনট্রাস্ট রেশিও বা অন্য কোনো সুনির্দিষ্ট উত্তরযুক্ত প্রশ্নের জন্য এগুলো সবচেয়ে ভালো। আপনি সাধারণ প্রোগ্রামিং কোডের মাধ্যমে এই পরীক্ষাগুলো প্রয়োগ করতে পারেন। এগুলোকে রুল-বেসড-ইভ্যাল বা এক্সাক্ট ইভ্যাল বলা হয়।
উদাহরণস্বরূপ:
// Example rule-based eval: data format
function evaluateFormat(appOutput) {
// Check if JSON is valid, colors are hex, no empty strings, motto is 6 words or fewer
// Use deterministic tools like zod for schema validation
return "PASS"; // or "FAIL"
}
অন্যান্য যাচাইগুলো বিষয়ভিত্তিক, যেমন মূলমন্ত্র এবং রঙের বিন্যাসের ক্ষেত্রে ব্র্যান্ড ও দর্শকগোষ্ঠীর সামঞ্জস্য। যদিও বিষাক্ততা শনাক্তকরণ একটি শ্রেণিবিন্যাসের কাজ, এটিও বিষয়ভিত্তিক, কারণ এতে বিচার-বিবেচনা জড়িত থাকে।
যদিও বিষয়ভিত্তিক পরীক্ষাতেও শ্রেণিবিন্যাস অন্তর্ভুক্ত থাকে, তবে কোনটি সঠিক এবং কোনটি ভুল তার পরিসর ব্যাপকভাবে ভিন্ন হতে পারে। উদাহরণস্বরূপ, মূলমন্ত্র এবং রঙের বিন্যাসের ক্ষেত্রে ব্র্যান্ড ও দর্শকের সামঞ্জস্য মূল্যায়ন করা। বিষাক্ততা শনাক্তকরণও একটি বিষয়ভিত্তিক প্রক্রিয়া।
যদিও ব্যক্তিনিষ্ঠ গুণাবলীর মূল্যায়ন করা এমন একটি কাজ বলে মনে হতে পারে যা কেবল একজন মানব বিশেষজ্ঞই করতে পারেন, আপনি ‘এলএলএম-কে বিচারক হিসেবে’ কৌশলটির মাধ্যমে এই পরীক্ষাগুলো বৃহৎ পরিসরে স্বয়ংক্রিয় করতে পারেন।
[এলএলএম জাজ] দ্রুত, ব্যবহারে সহজ এবং তুলনামূলকভাবে সস্তা [...] এটি প্রোডাকশনে থাকা এআই মডেল মূল্যায়নের অন্যতম, এমনকি সবচেয়ে প্রচলিত, পদ্ধতিতে পরিণত হয়েছে।
—এআই ইঞ্জিনিয়ারিং, চিপ হুয়েন
উদাহরণস্বরূপ:
// Example LLM-as-a-judge eval for a subjective quality like brand fit
async function evalBrandFit(userInput, appOutput) {
const brandPrompt = `You are an expert brand strategist. Evaluate the
following generated motto for the company whose target audience is
${userInput.audience}, and who describes itself as
${userInput.companyDescription}: ${appOutput.motto}`
// Call the LLM judge
const evalResult = evalWithLLM(brandPrompt);
// Return the consolidated results
return {
mottoBrandFit: evalResult,
};
}
// Helper that communicates with the LLM API
async function evalWithLLM(prompt) {
// ... Call LLM with the prompt ...
// ... Parse the resulting judgement ("PASS" or "FAIL") + rationale
return {
status: "PASS",
rationale: "This motto perfectly captures the brand and tone, because..."
};
}
মডেলটি মানুষের বিচার-বিবেচনার অনুকরণ করে, তাই আপনি ঠিক কী খুঁজছেন তা বিচারককে স্পষ্টভাবে জানানোর জন্য আপনার একটি উপায় প্রয়োজন। বিচারককে একটি রুব্রিক প্রদানের মাধ্যমে আপনি তা করতে পারেন।
রুব্রিক হলো কাঠামোগত কিছু মানদণ্ড বা নম্বর প্রদানের নির্দেশিকা, যা একজন বিচারক (মানুষ বা কৃত্রিম বুদ্ধিমত্তা) কোনো ফলাফল মূল্যায়ন করতে ব্যবহার করেন। এটি প্রতিটি মূল্যায়নে বিষয়গত গুণাবলী বিচার করার জন্য একটি সামঞ্জস্যপূর্ণ কাঠামো প্রদান করে।
অন্যান্য ধরণের মূল্যায়ন
আপনি রেফারেন্স-ভিত্তিক বা জোড়ায় জোড়ায় মূল্যায়ন ব্যবহার করতে চাইতে পারেন।
রেফারেন্স-ভিত্তিক
এগুলো একটি প্রকৃত উত্তরের সাথে সাদৃশ্য পরিমাপ করে। অনুবাদ বা প্রযুক্তিগত তথ্যের মতো কাজে এগুলো ব্যবহার করুন, যেখানে একটি পরিচিত ও সঠিক উত্তর বিদ্যমান।
জোড়ায় জোড়ায়
একজন বিচারক দুটি ভিন্ন সংস্করণকে PASS স্কোর দিতে পারেন, এমনকি যখন একটি অন্যটির চেয়ে ভালো হয়। পেয়ারওয়াইজ ইভ্যালুয়েশন এই সমস্যার সমাধান করে, যেখানে একই ইনপুটের জন্য বিচারককে দুটি আউটপুট (A এবং B) দেওয়া হয় এবং একটিকে বিজয়ী হিসেবে বেছে নিতে নির্দেশ দেওয়া হয়।
উদাহরণস্বরূপ, ধরুন আপনি একটি বন্ধুত্বপূর্ণ ক্যাফের জন্য একটি মূলমন্ত্র মূল্যায়ন করছেন:
Input: "Friendly cafe"
Pointwise evaluation:
Output A: "Come get coffee." // PASS
Output B: "Your morning smile in a cup." // PASS
2 PASS. Unconclusive!
Pairwise evaluation:
Output B wins. It captures the "friendly" tone more effectively than the generic Output A.
আপনার মডেলের কোন সংস্করণটি স্থাপন করবেন তা নির্বাচন করতে, অথবা দুটি ভিন্ন প্রম্পটের তুলনা করতে পেয়ারওয়াইজ ইভ্যালুয়েশন ব্যবহার করুন।
সাধারণ ওয়েব টেস্টিং বনাম এআই মূল্যায়ন

আমরা ধরে নিচ্ছি যে, এই কোর্সের পাঠক হিসেবে আপনি ইতিমধ্যেই জানেন কীভাবে একটি ওয়েবসাইট এবং ওয়েব অ্যাপ্লিকেশন পরীক্ষা করতে হয়। এআই যুক্ত করার সময়, আপনাকে আপনার বিদ্যমান মানসিক মডেলটি পরিবর্তন করতে হবে। এআই মূল্যায়ন ব্যবহার করে নিম্নলিখিত পদক্ষেপগুলি গ্রহণ করুন:
- রিগ্রেশন টেস্টিং করুন : আপনি যখন আপনার প্রম্পট বা মডেল পরিবর্তন করেন, তখন কি অ্যাপ্লিকেশনটি ভেঙে যায়? আপনি কি ভাঙা কালার প্যালেট বা আপত্তিকর স্লোগান দেখতে পাচ্ছেন? একটি ওয়েব অ্যাপের মতো নয়, যেখানে কোনো সমস্যা হওয়াটা সফটওয়্যারের কার্যকারিতার ত্রুটি, এখানে আপনি পরীক্ষা করছেন যে এলএলএম (LLM) আউটপুটটি উচ্চ-মানের এবং নিরাপদ কিনা। এর মধ্যে ব্যক্তিনিষ্ঠতার অবকাশ রয়েছে।
- আপনার অ্যাপ্লিকেশনটি অপ্টিমাইজ করুন : আপনার অ্যাপ্লিকেশনটি কি আরও উন্নত হচ্ছে? আপনি কি আপনার কাঙ্ক্ষিত মেট্রিকগুলিতে উন্নতি করছেন, যেমন—ক্ষতিকর প্রভাব না বাড়িয়ে ব্র্যান্ডের সাথে সামঞ্জস্যপূর্ণ আরও স্লোগান পাচ্ছেন?
- সঠিক মডেলটি বেছে নিন : আপনার ব্যবহারের জন্য কি এর চেয়ে ভালো কোনো মডেল আছে? এআই আসার আগে, আপনি আপনার ওয়েব স্ট্যাক একবারই বেছে নিতেন। এআই আসার পর, আরও ভালো (এবং সম্ভবত সস্তা) মডেলে যাওয়ার সুযোগ খুঁজে বের করতে আপনার নিয়মিত মডেলগুলোর বেঞ্চমার্কিং করা উচিত।
আপনার পরীক্ষাগুলি স্তরবিন্যাস করুন

একটি স্বাস্থ্যকর কোডবেসে একাধিক স্তরের পরীক্ষা থাকা উচিত: ইউনিট টেস্ট, রিগ্রেশন ও ইন্টিগ্রেশন টেস্ট এবং এন্ড-টু-এন্ড টেস্ট। আপনার ইভ্যালগুলোও স্তরভিত্তিক হওয়া উচিত।
- আপনার এআই অ্যাপ্লিকেশনের জন্য টেস্ট সম্পূর্ণরূপে স্বয়ংক্রিয় করতে রুল-বেসড ইভ্যাল এবং এলএলএম-অ্যাজ-এ-জাজ ইভ্যাল ব্যবহার করুন। এর মাধ্যমে, আপনি দৈনন্দিন ডেভেলপমেন্ট এবং সিআই/সিডি পর্যায়ে সমস্যাগুলো ধরতে পারবেন এবং আপনার রিলিজ ক্যান্ডিডেটগুলো নির্ধারিত মান পূরণ করছে কিনা তা পরীক্ষা করতে পারবেন।
- বৃহৎ পরিসরে গুণমান যাচাই করার জন্য ইন্টিগ্রেশন ও রিগ্রেশন টেস্ট চালান।
- গ্রহণযোগ্যতা পরীক্ষা হিসেবে হাতে-কলমে মানুষের মূল্যায়ন চালান।
বিল্ড টাইমে চালানো এই ইভ্যালগুলোর পাশাপাশি, রান টাইম ইভ্যালের মাধ্যমে প্রোডাকশন ট্র্যাফিক নিরীক্ষণ করুন। এগুলো আপনাকে বাস্তব ইনপুটের গুণমান বা নিরাপত্তাজনিত সমস্যা শনাক্ত করতে সাহায্য করতে পারে।
আপনার মূল্যায়নগুলিকে বিকশিত করতে থাকুন
আপনার অ্যাপ্লিকেশনের সাথে সাথে মূল্যায়নগুলোও উন্নত হওয়া উচিত। আপনার মডেলগুলো আরও উন্নত হওয়ার সাথে সাথে, আপনার পুরোনো মূল্যায়নগুলোও হালনাগাদ করুন।
আপনার টেস্ট ডেটাসেটগুলিতে নিয়মিতভাবে জটিল উদাহরণ যোগ করুন, যেমন নতুন এজ কেস বা প্রোডাকশনে পাওয়া অপ্রত্যাশিত ইউজার ইনপুট।
আপনার মূল্যায়নগুলো কী পরিমাপ করে?
ইভ্যাল ডিজাইন করার আগে, একটি আউটপুট কীভাবে মূল্যায়ন করতে হয় তা আপনার বোঝা উচিত। এর জন্য কয়েকটি পরিভাষা আপনার জানা প্রয়োজন।

মানদণ্ড হলো নিয়মকানুন, সেই মাত্রাগুলো যা যাচাই করা প্রয়োজন। উদাহরণস্বরূপ, ব্র্যান্ডের সাথে সামঞ্জস্য, বিষাক্ততা এবং সহজলভ্যতা।
প্রতিটি মূল্যায়ন মানদণ্ড একটি মেট্রিক দ্বারা পরিমাপ করা হয়। মেট্রিক হলো একটি একক, সুনির্দিষ্ট স্কোর যা মানদণ্ডের সাপেক্ষে মডেলের আউটপুটকে পরিমাপ করে। এই স্কোরটি বাইনারি হতে পারে অথবা একটি নির্দিষ্ট পরিসরের মধ্যে থাকা মান হতে পারে, যা পরিমাপ করে যে আউটপুটটি মূল্যায়নকারীর প্রত্যাশা থেকে কতটা দূরে বা কাছে রয়েছে।
একই মানদণ্ড বিভিন্ন ধরনের মেট্রিক্স দিয়ে পরিমাপ করা সম্ভব। উদাহরণস্বরূপ, ব্র্যান্ড অ্যালাইনমেন্টের জন্য:
- এই নীতিবাক্যটি কি ব্র্যান্ডের সাথে সামঞ্জস্যপূর্ণ? এর মাপকাঠি হলো
PASSঅথবাFAIL। - ১ থেকে ৫ এর স্কেলে, মূলমন্ত্রটি ব্র্যান্ডের সাথে কতটা সামঞ্জস্যপূর্ণ? এই পরিমাপকটি হলো এক থেকে পাঁচের মধ্যে একটি পূর্ণসংখ্যা।
ইভ্যালুয়েটর হলো সেই কোড বা মডেল যা কোনো মানদণ্ডকে স্কোর প্রদান করে। ইভ্যালুয়েটররা মেট্রিক নির্ধারণ করে।