আপনার মূল্যায়ন ডিজাইন করুন

আপনার এআই অ্যাপ্লিকেশনের জন্য 'ভালো' এবং 'খারাপ' বলতে কী বোঝায় তা নির্ধারণ করুন।

আপনার টেস্টগুলো ডিজাইন করার আগে, ThemeBuilder থেকে প্রাপ্ত একটি আদর্শ ও নিখুঁত আউটপুট দেখুন। প্রতিটি ইভ্যালুয়েশন এই অবজেক্টটির একটি সংস্করণ প্রসেস করে:

{
  "id": "example-002",
  "userInput": {
    "companyName": "Nova news",
    "description": "Space exploration news and educational content.",
    "audience": "science enthusiasts",
    "tone": [
      "informative",
      "scientific",
      "inspiring"
    ]
  },
  "appOutput": {
    "motto": "Unveiling the universe.",
    "colorPalette": {
      "textColor": "#E2E8F0",
      "backgroundColor": "#0B0D17",
      "primary": "#7000FF",
      "secondary": "#00C2FF"
    }
  }
}

সাফল্য এবং ব্যর্থতার সংজ্ঞা দিন

মূল্যায়ন তৈরির প্রথম ধাপ হলো সাফল্য ও ব্যর্থতা নির্ধারণ করা। এটি করার জন্য, আপনাকে আপনার ডেটা সম্পর্কে পরিচিত হতে হবে; উৎপাদনে কী ধরনের ত্রুটিপূর্ণ আউটপুট দেখা দেওয়ার সম্ভাবনা রয়েছে, তা বুঝতে হবে। সম্ভব হলে, উৎপাদন ডেটা পর্যালোচনা করুন।

ThemeBuilder-এর ত্রুটিপূর্ণ আউটপুটের উদাহরণগুলো হলো:

  • ভুল ডেটা কাঠামো:
    • অবৈধ JSON, কী অনুপস্থিত
    • কালার প্যালেটের মানগুলো হেক্সাডেসিমেল নয়।
    • নীতিবাক্য বা কিছু রং হলো ফাঁকা স্ট্রিং।
    • নীতিবাক্যটি আমাদের নির্ধারিত ৬ শব্দের সীমা অতিক্রম করেছে।
  • খারাপ নীতিবাক্য:
    • নীতিবাক্যটি ব্র্যান্ড, দর্শক বা ভাবভঙ্গির সাথে মেলে না।
    • নীতিবাক্যটি বিষাক্ত।
  • খারাপ রঙের প্যালেট:
    • রঙের বিন্যাসটি ব্র্যান্ড, দর্শক বা ভাবের সাথে মেলে না।
    • টেক্সট ও ব্যাকগ্রাউন্ডের রঙের বৈসাদৃশ্য অনুপাত ৪.৫-এর চেয়ে কম।

ব্যবহারকারীর ইনপুটের উদাহরণ

User input: {
 "companyName": "Moon Cafe",
 "description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
 "audience": "night owls and students"
}

আউটপুট: ভুল ডেটা

// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}

// The motto is over our 6-word limit
Output: {
  "motto": "The best place for late night espresso and cozy pastries",
  "colorPalette": ...
}

// Colors are invalid hexadecimal strings
Output: {
  "motto": "Brewed for the moon.",
  "colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}

আউটপুট: খারাপ নীতিবাক্য

// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."

// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."

আউটপুট: খারাপ রঙের প্যালেট

// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
  "textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
  "primary": "\#FFFF00", "secondary": "\#0000FF"
}

// Contrast ratio below the 4.5:1 requirement
Output color palette: {
  "textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
  "primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}

মূল্যায়ন মানদণ্ড এবং পদ্ধতি সংজ্ঞায়িত করুন

কোনো আউটপুট আপনার প্রত্যাশা পূরণে কীভাবে ব্যর্থ হয়, তার উপর ভিত্তি করে আপনি মূল্যায়নের মানদণ্ড ও পদ্ধতি নির্ধারণ করতে পারেন:

  • বস্তুনিষ্ঠ মানদণ্ড পরীক্ষা করার জন্য, নিয়ম-ভিত্তিক মূল্যায়ন তৈরি করুন (সাধারণ কোড ব্যবহার করুন)।
  • ব্যক্তিগত মানদণ্ডগুলো যাচাই করার জন্য একটি বিচারক মডেল ব্যবহার করুন।
মূল্যায়ন মানদণ্ড মূল্যায়ন পদ্ধতি
ডেটার ফরম্যাট সঠিক: বৈধ JSON, সমস্ত কী উপস্থিত, হেক্সাডেসিমাল রঙ, কোনো খালি মান নেই, নীতিবাক্যটি ছয় শব্দের কম। নিয়ম-ভিত্তিক (বস্তুনিষ্ঠ)
টেক্সট ও ব্যাকগ্রাউন্ডের রঙের বৈসাদৃশ্য অনুপাতটি অ্যাক্সেসযোগ্য। নিয়ম-ভিত্তিক
মূলমন্ত্রটি ব্র্যান্ড, দর্শক এবং ভাবভঙ্গির সাথে সামঞ্জস্যপূর্ণ। এলএলএম বিচারক (ব্যক্তিগত মতামত)
রঙের বিন্যাসটি ব্র্যান্ড, দর্শক এবং ভাবের সাথে সামঞ্জস্যপূর্ণ। এলএলএম বিচারক
নীতিবাক্যটি বিষাক্ত নয় এলএলএম বিচারক

রুব্রিক

নিখুঁত সৃজনশীল নীতিবাক্য বা রঙের বিন্যাস বলে কিছু নেই। তাই থিমবিল্ডারের আউটপুটকে কোনো আদর্শ ফলাফলের সাথে তুলনা না করে, বিচারককে সুস্পষ্ট নির্দেশিকা দিন।

// Example rubric for color palette brand fit 
Criteria:
1. **Psychological and literal association**: Do the colors logically map
   to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
   keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
   industry baseline, regardless of secondary trendy adjectives?

কাজ-নির্দিষ্ট মানদণ্ড ব্যবহার করুন

আপনার ব্যবহার-ক্ষেত্র-নির্দিষ্ট মেট্রিকগুলোর পাশাপাশি, কাজের সাথে প্রাসঙ্গিক সাধারণ মানদণ্ড ও মেট্রিক ব্যবহার করুন। উদাহরণস্বরূপ, সারসংক্ষেপ তৈরির জন্য প্রচলিত মেট্রিকগুলোর মধ্যে রয়েছে:

  • সামঞ্জস্য : সারাংশটি ব্যবহারকারীর নির্দিষ্ট নির্দেশনা, সুর বা শৈলী অনুসরণ করে।
  • সংক্ষিপ্ততা : সারসংক্ষেপে ঠিক ততটুকুই বলা হয়েছে যতটুকু প্রয়োজন, এর বেশি কিছু নয়।
  • সমৃদ্ধি : সারাংশটিতে সকল মূল বিষয় অন্তর্ভুক্ত রয়েছে।
  • সঠিকতা : সারসংক্ষেপটি তথ্যভিত্তিক ও সত্য।
  • ভিত্তি : বিভ্রম রোধ করার জন্য প্রতিটি দাবির উৎস পর্যন্ত যাচাই করা হয়।

পূর্ব-নির্মিত মূল্যায়ন

মূল্যায়ন সমাধান এবং সরঞ্জামগুলি পরিচালিত মূল্যায়ন বা পূর্ব-নির্মিত মেট্রিক্স প্রদান করে যা আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত হতে পারে। কী কী উপলব্ধ আছে তা অন্বেষণ করুন।