এআই পরীক্ষার জন্য আপনার মানসিক মডেল

কী থাকবে, কী যাবে: এলএলএম-এর নতুন বিশ্বের সাথে আপনার ওয়েব টেস্টিং জ্ঞানকে মানিয়ে নেওয়া।

উদাহরণ অ্যাপ্লিকেশন

এই সিরিজ জুড়ে থিমবিল্ডার হলো আপনার উদাহরণ অ্যাপ্লিকেশন। থিমবিল্ডার একটি JSON অবজেক্ট আউটপুট করে, যাতে LLM দ্বারা তৈরি একটি মূলমন্ত্র এবং একটি কালার প্যালেট থাকে।

  • মূলমন্ত্র এবং রঙের ব্যবহার অবশ্যই প্রদত্ত ব্র্যান্ডের নাম, বিবরণ, দর্শক এবং ভাবভঙ্গির সাথে মিলতে হবে।
  • নীতিবাক্যটি আপত্তিকর হওয়া উচিত নয় এবং অবশ্যই সংক্ষিপ্ত (৬ শব্দের কম) হতে হবে।
  • WCAG-এর ন্যূনতম নির্দেশিকা অনুযায়ী, কালার প্যালেটের কনট্রাস্ট অবশ্যই ৪.৫:১ কনট্রাস্ট রেশিও সহ অ্যাক্সেসিবল হতে হবে।
থিমবিল্ডারের ইনপুট এবং আউটপুট।
থিমবিল্ডারে, একজন ব্যবহারকারী কোম্পানির নাম ও বিবরণ, টার্গেট অডিয়েন্স এবং ব্র্যান্ডের ধরন ও আবহ ইনপুট করেন। ফ্রন্টএন্ড এই তথ্য আপনার সার্ভারে পাঠিয়ে দেয়। আপনার সার্ভার ব্র্যান্ডের সাথে সামঞ্জস্যপূর্ণ একটি মূলমন্ত্র এবং কালার প্যালেট তৈরি করার জন্য একটি এলএলএম (LLM) ব্যবহার করে।

বস্তুনিষ্ঠ এবং বিষয়ভিত্তিক মূল্যায়ন

থিমবিল্ডারটি উদ্দেশ্য অনুযায়ী কাজ করছে কিনা, তা আপনি কীভাবে পরীক্ষা করেন?

নিয়ম-ভিত্তিক মূল্যায়ন (কখনও কখনও নির্ভুল মূল্যায়নও বলা হয়) হলো এমন নৈর্ব্যক্তিক পরীক্ষা যার উত্তর হয় সঠিক বা ভুল। ডেটার বিন্যাস, বৈসাদৃশ্য অনুপাত বা এই জাতীয় সুনির্দিষ্ট উত্তর আছে এমন প্রশ্নের জন্য এগুলো সবচেয়ে ভালো। আপনি সাধারণ প্রোগ্রামিং কোড ব্যবহার করে এই পরীক্ষাগুলো বাস্তবায়ন করতে পারেন।

কিছু চেক বস্তুনিষ্ঠ হয়, যার উত্তর হয় সঠিক বা ভুল। ডেটা ফরম্যাট, কনট্রাস্ট রেশিও বা অন্য কোনো সুনির্দিষ্ট উত্তরযুক্ত প্রশ্নের জন্য এগুলো সবচেয়ে ভালো। আপনি সাধারণ প্রোগ্রামিং কোডের মাধ্যমে এই পরীক্ষাগুলো প্রয়োগ করতে পারেন। এগুলোকে রুল-বেসড-ইভ্যাল বা এক্সাক্ট ইভ্যাল বলা হয়।

উদাহরণস্বরূপ:

// Example rule-based eval: data format
function evaluateFormat(appOutput) {
  // Check if JSON is valid, colors are hex, no empty strings, motto is 6 words or fewer
  // Use deterministic tools like zod for schema validation
  return "PASS"; // or "FAIL"
}

অন্যান্য যাচাইগুলো বিষয়ভিত্তিক, যেমন মূলমন্ত্র এবং রঙের বিন্যাসের ক্ষেত্রে ব্র্যান্ড ও দর্শকগোষ্ঠীর সামঞ্জস্য। যদিও বিষাক্ততা শনাক্তকরণ একটি শ্রেণিবিন্যাসের কাজ, এটিও বিষয়ভিত্তিক, কারণ এতে বিচার-বিবেচনা জড়িত থাকে।

যদিও বিষয়ভিত্তিক পরীক্ষাতেও শ্রেণিবিন্যাস অন্তর্ভুক্ত থাকে, তবে কোনটি সঠিক এবং কোনটি ভুল তার পরিসর ব্যাপকভাবে ভিন্ন হতে পারে। উদাহরণস্বরূপ, মূলমন্ত্র এবং রঙের বিন্যাসের ক্ষেত্রে ব্র্যান্ড ও দর্শকের সামঞ্জস্য মূল্যায়ন করা। বিষাক্ততা শনাক্তকরণও একটি বিষয়ভিত্তিক প্রক্রিয়া।

যদিও ব্যক্তিনিষ্ঠ গুণাবলীর মূল্যায়ন করা এমন একটি কাজ বলে মনে হতে পারে যা কেবল একজন মানব বিশেষজ্ঞই করতে পারেন, আপনি ‘এলএলএম-কে বিচারক হিসেবে’ কৌশলটির মাধ্যমে এই পরীক্ষাগুলো বৃহৎ পরিসরে স্বয়ংক্রিয় করতে পারেন।

[এলএলএম জাজ] দ্রুত, ব্যবহারে সহজ এবং তুলনামূলকভাবে সস্তা [...] এটি প্রোডাকশনে থাকা এআই মডেল মূল্যায়নের অন্যতম, এমনকি সবচেয়ে প্রচলিত, পদ্ধতিতে পরিণত হয়েছে।

—এআই ইঞ্জিনিয়ারিং, চিপ হুয়েন

উদাহরণস্বরূপ:

// Example LLM-as-a-judge eval for a subjective quality like brand fit
async function evalBrandFit(userInput, appOutput) {
  const brandPrompt = `You are an expert brand strategist. Evaluate the
  following generated motto for the company whose target audience is
  ${userInput.audience}, and who describes itself as
  ${userInput.companyDescription}: ${appOutput.motto}`
  // Call the LLM judge
  const evalResult = evalWithLLM(brandPrompt);
  // Return the consolidated results
  return {
    mottoBrandFit: evalResult,
  };
}

// Helper that communicates with the LLM API
async function evalWithLLM(prompt) {
  // ... Call LLM with the prompt ...
  // ... Parse the resulting judgement ("PASS" or "FAIL") + rationale
  return {
    status: "PASS",
    rationale: "This motto perfectly captures the brand and tone, because..."
  };
}

মডেলটি মানুষের বিচার-বিবেচনার অনুকরণ করে, তাই আপনি ঠিক কী খুঁজছেন তা বিচারককে স্পষ্টভাবে জানানোর জন্য আপনার একটি উপায় প্রয়োজন। বিচারককে একটি রুব্রিক প্রদানের মাধ্যমে আপনি তা করতে পারেন।

রুব্রিক হলো কাঠামোগত কিছু মানদণ্ড বা নম্বর প্রদানের নির্দেশিকা, যা একজন বিচারক (মানুষ বা কৃত্রিম বুদ্ধিমত্তা) কোনো ফলাফল মূল্যায়ন করতে ব্যবহার করেন। এটি প্রতিটি মূল্যায়নে বিষয়গত গুণাবলী বিচার করার জন্য একটি সামঞ্জস্যপূর্ণ কাঠামো প্রদান করে।

অন্যান্য ধরণের মূল্যায়ন

আপনি রেফারেন্স-ভিত্তিক বা জোড়ায় জোড়ায় মূল্যায়ন ব্যবহার করতে চাইতে পারেন।

রেফারেন্স-ভিত্তিক

এগুলো একটি প্রকৃত উত্তরের সাথে সাদৃশ্য পরিমাপ করে। অনুবাদ বা প্রযুক্তিগত তথ্যের মতো কাজে এগুলো ব্যবহার করুন, যেখানে একটি পরিচিত ও সঠিক উত্তর বিদ্যমান।

জোড়ায় জোড়ায়

একজন বিচারক দুটি ভিন্ন সংস্করণকে PASS স্কোর দিতে পারেন, এমনকি যখন একটি অন্যটির চেয়ে ভালো হয়। পেয়ারওয়াইজ ইভ্যালুয়েশন এই সমস্যার সমাধান করে, যেখানে একই ইনপুটের জন্য বিচারককে দুটি আউটপুট (A এবং B) দেওয়া হয় এবং একটিকে বিজয়ী হিসেবে বেছে নিতে নির্দেশ দেওয়া হয়।

উদাহরণস্বরূপ, ধরুন আপনি একটি বন্ধুত্বপূর্ণ ক্যাফের জন্য একটি মূলমন্ত্র মূল্যায়ন করছেন:

Input: "Friendly cafe"

Pointwise evaluation:
Output A: "Come get coffee." // PASS
Output B: "Your morning smile in a cup." // PASS
2 PASS. Unconclusive!

Pairwise evaluation:
Output B wins. It captures the "friendly" tone more effectively than the generic Output A.

আপনার মডেলের কোন সংস্করণটি স্থাপন করবেন তা নির্বাচন করতে, অথবা দুটি ভিন্ন প্রম্পটের তুলনা করতে পেয়ারওয়াইজ ইভ্যালুয়েশন ব্যবহার করুন।

সাধারণ ওয়েব টেস্টিং বনাম এআই মূল্যায়ন

ওয়েব টেস্টিং-এর মধ্যে রিগ্রেশন টেস্টিং অন্তর্ভুক্ত। এআই-এর সাথে অপটিমাইজেশন এবং মডেল ইভ্যালুয়েশন যুক্ত করতে হয়।

আমরা ধরে নিচ্ছি যে, এই কোর্সের পাঠক হিসেবে আপনি ইতিমধ্যেই জানেন কীভাবে একটি ওয়েবসাইট এবং ওয়েব অ্যাপ্লিকেশন পরীক্ষা করতে হয়। এআই যুক্ত করার সময়, আপনাকে আপনার বিদ্যমান মানসিক মডেলটি পরিবর্তন করতে হবে। এআই মূল্যায়ন ব্যবহার করে নিম্নলিখিত পদক্ষেপগুলি গ্রহণ করুন:

  • রিগ্রেশন টেস্টিং করুন : আপনি যখন আপনার প্রম্পট বা মডেল পরিবর্তন করেন, তখন কি অ্যাপ্লিকেশনটি ভেঙে যায়? আপনি কি ভাঙা কালার প্যালেট বা আপত্তিকর স্লোগান দেখতে পাচ্ছেন? একটি ওয়েব অ্যাপের মতো নয়, যেখানে কোনো সমস্যা হওয়াটা সফটওয়্যারের কার্যকারিতার ত্রুটি, এখানে আপনি পরীক্ষা করছেন যে এলএলএম (LLM) আউটপুটটি উচ্চ-মানের এবং নিরাপদ কিনা। এর মধ্যে ব্যক্তিনিষ্ঠতার অবকাশ রয়েছে।
  • আপনার অ্যাপ্লিকেশনটি অপ্টিমাইজ করুন : আপনার অ্যাপ্লিকেশনটি কি আরও উন্নত হচ্ছে? আপনি কি আপনার কাঙ্ক্ষিত মেট্রিকগুলিতে উন্নতি করছেন, যেমন—ক্ষতিকর প্রভাব না বাড়িয়ে ব্র্যান্ডের সাথে সামঞ্জস্যপূর্ণ আরও স্লোগান পাচ্ছেন?
  • সঠিক মডেলটি বেছে নিন : আপনার ব্যবহারের জন্য কি এর চেয়ে ভালো কোনো মডেল আছে? এআই আসার আগে, আপনি আপনার ওয়েব স্ট্যাক একবারই বেছে নিতেন। এআই আসার পর, আরও ভালো (এবং সম্ভবত সস্তা) মডেলে যাওয়ার সুযোগ খুঁজে বের করতে আপনার নিয়মিত মডেলগুলোর বেঞ্চমার্কিং করা উচিত।

আপনার পরীক্ষাগুলি স্তরবিন্যাস করুন

পরীক্ষার চারটি স্তর রয়েছে: ইউনিট টেস্ট, এক্সটেন্ডেড ইউনিট টেস্ট, রিগ্রেশন ও ইন্টিগ্রেশন টেস্ট এবং হিউম্যান টেস্টিং।

একটি স্বাস্থ্যকর কোডবেসে একাধিক স্তরের পরীক্ষা থাকা উচিত: ইউনিট টেস্ট, রিগ্রেশন ও ইন্টিগ্রেশন টেস্ট এবং এন্ড-টু-এন্ড টেস্ট। আপনার ইভ্যালগুলোও স্তরভিত্তিক হওয়া উচিত।

  • আপনার এআই অ্যাপ্লিকেশনের জন্য টেস্ট সম্পূর্ণরূপে স্বয়ংক্রিয় করতে রুল-বেসড ইভ্যাল এবং এলএলএম-অ্যাজ-এ-জাজ ইভ্যাল ব্যবহার করুন। এর মাধ্যমে, আপনি দৈনন্দিন ডেভেলপমেন্ট এবং সিআই/সিডি পর্যায়ে সমস্যাগুলো ধরতে পারবেন এবং আপনার রিলিজ ক্যান্ডিডেটগুলো নির্ধারিত মান পূরণ করছে কিনা তা পরীক্ষা করতে পারবেন।
  • বৃহৎ পরিসরে গুণমান যাচাই করার জন্য ইন্টিগ্রেশন ও রিগ্রেশন টেস্ট চালান।
  • গ্রহণযোগ্যতা পরীক্ষা হিসেবে হাতে-কলমে মানুষের মূল্যায়ন চালান।

বিল্ড টাইমে চালানো এই ইভ্যালগুলোর পাশাপাশি, রান টাইম ইভ্যালের মাধ্যমে প্রোডাকশন ট্র্যাফিক নিরীক্ষণ করুন। এগুলো আপনাকে বাস্তব ইনপুটের গুণমান বা নিরাপত্তাজনিত সমস্যা শনাক্ত করতে সাহায্য করতে পারে।

আপনার মূল্যায়নগুলিকে বিকশিত করতে থাকুন

আপনার অ্যাপ্লিকেশনের সাথে সাথে মূল্যায়নগুলোও উন্নত হওয়া উচিত। আপনার মডেলগুলো আরও উন্নত হওয়ার সাথে সাথে, আপনার পুরোনো মূল্যায়নগুলোও হালনাগাদ করুন।

আপনার টেস্ট ডেটাসেটগুলিতে নিয়মিতভাবে জটিল উদাহরণ যোগ করুন, যেমন নতুন এজ কেস বা প্রোডাকশনে পাওয়া অপ্রত্যাশিত ইউজার ইনপুট।

আপনার মূল্যায়নগুলো কী পরিমাপ করে?

ইভ্যাল ডিজাইন করার আগে, একটি আউটপুট কীভাবে মূল্যায়ন করতে হয় তা আপনার বোঝা উচিত। এর জন্য কয়েকটি পরিভাষা আপনার জানা প্রয়োজন।

মানদণ্ড হলো নিয়মকানুন, সেই মাত্রাগুলো যা যাচাই করা প্রয়োজন। উদাহরণস্বরূপ, ব্র্যান্ডের সাথে সামঞ্জস্য, বিষাক্ততা এবং সহজলভ্যতা।

প্রতিটি মূল্যায়ন মানদণ্ড একটি মেট্রিক দ্বারা পরিমাপ করা হয়। মেট্রিক হলো একটি একক, সুনির্দিষ্ট স্কোর যা মানদণ্ডের সাপেক্ষে মডেলের আউটপুটকে পরিমাপ করে। এই স্কোরটি বাইনারি হতে পারে অথবা একটি নির্দিষ্ট পরিসরের মধ্যে থাকা মান হতে পারে, যা পরিমাপ করে যে আউটপুটটি মূল্যায়নকারীর প্রত্যাশা থেকে কতটা দূরে বা কাছে রয়েছে।

একই মানদণ্ড বিভিন্ন ধরনের মেট্রিক্স দিয়ে পরিমাপ করা সম্ভব। উদাহরণস্বরূপ, ব্র্যান্ড অ্যালাইনমেন্টের জন্য:

  • এই নীতিবাক্যটি কি ব্র্যান্ডের সাথে সামঞ্জস্যপূর্ণ? এর মাপকাঠি হলো PASS অথবা FAIL
  • ১ থেকে ৫ এর স্কেলে, মূলমন্ত্রটি ব্র্যান্ডের সাথে কতটা সামঞ্জস্যপূর্ণ? এই পরিমাপকটি হলো এক থেকে পাঁচের মধ্যে একটি পূর্ণসংখ্যা।

ইভ্যালুয়েটর হলো সেই কোড বা মডেল যা কোনো মানদণ্ডকে স্কোর প্রদান করে। ইভ্যালুয়েটররা মেট্রিক নির্ধারণ করে।