আপনার এআই অ্যাপ্লিকেশনের জন্য 'ভালো' এবং 'খারাপ' বলতে কী বোঝায় তা নির্ধারণ করুন।
আপনার টেস্টগুলো ডিজাইন করার আগে, ThemeBuilder থেকে প্রাপ্ত একটি আদর্শ ও নিখুঁত আউটপুট দেখুন। প্রতিটি ইভ্যালুয়েশন এই অবজেক্টটির একটি সংস্করণ প্রসেস করে:
{
"id": "example-002",
"userInput": {
"companyName": "Nova news",
"description": "Space exploration news and educational content.",
"audience": "science enthusiasts",
"tone": [
"informative",
"scientific",
"inspiring"
]
},
"appOutput": {
"motto": "Unveiling the universe.",
"colorPalette": {
"textColor": "#E2E8F0",
"backgroundColor": "#0B0D17",
"primary": "#7000FF",
"secondary": "#00C2FF"
}
}
}
সাফল্য এবং ব্যর্থতার সংজ্ঞা দিন
মূল্যায়ন তৈরির প্রথম ধাপ হলো সাফল্য ও ব্যর্থতা নির্ধারণ করা। এটি করার জন্য, আপনাকে আপনার ডেটা সম্পর্কে পরিচিত হতে হবে; উৎপাদনে কী ধরনের ত্রুটিপূর্ণ আউটপুট দেখা দেওয়ার সম্ভাবনা রয়েছে, তা বুঝতে হবে। সম্ভব হলে, উৎপাদন ডেটা পর্যালোচনা করুন।
ThemeBuilder-এর ত্রুটিপূর্ণ আউটপুটের উদাহরণগুলো হলো:
- ভুল ডেটা কাঠামো:
- অবৈধ JSON, কী অনুপস্থিত
- কালার প্যালেটের মানগুলো হেক্সাডেসিমেল নয়।
- নীতিবাক্য বা কিছু রং হলো ফাঁকা স্ট্রিং।
- নীতিবাক্যটি আমাদের নির্ধারিত ৬ শব্দের সীমা অতিক্রম করেছে।
- খারাপ নীতিবাক্য:
- নীতিবাক্যটি ব্র্যান্ড, দর্শক বা ভাবভঙ্গির সাথে মেলে না।
- নীতিবাক্যটি বিষাক্ত।
- খারাপ রঙের প্যালেট:
- রঙের বিন্যাসটি ব্র্যান্ড, দর্শক বা ভাবের সাথে মেলে না।
- টেক্সট ও ব্যাকগ্রাউন্ডের রঙের বৈসাদৃশ্য অনুপাত ৪.৫-এর চেয়ে কম।
ব্যবহারকারীর ইনপুটের উদাহরণ
User input: {
"companyName": "Moon Cafe",
"description": "A cozy nocturnal coffee shop serving late-night espresso and pastries.",
"audience": "night owls and students"
}
আউটপুট: ভুল ডেটা
// Wrong key `tagline` instead of `motto`.
// Array of colors instead of the required `colorPalette` object.
Output: {"tagline": "Freshly brewed", "colors": \["\#f0f0f0"\]}
// The motto is over our 6-word limit
Output: {
"motto": "The best place for late night espresso and cozy pastries",
"colorPalette": ...
}
// Colors are invalid hexadecimal strings
Output: {
"motto": "Brewed for the moon.",
"colorPalette": {"textColor": "grey", "backgroundColor": "white", "primary": "neon-purple", "secondary": "\#\#00C2FF"}
}
আউটপুট: খারাপ নীতিবাক্য
// Brand and tone mismatch (too cold for a cozy vibe)
Output motto: "Beans for maximum productivity."
// Toxic (rude and unwelcoming)
Output motto: "Go away loser, we're busy."
আউটপুট: খারাপ রঙের প্যালেট
// Brand and tone mismatch (clashing neon colors for a cozy cafe)
Output color palette: {
"textColor": "\#00FF00", "backgroundColor": "\#FF00FF",
"primary": "\#FFFF00", "secondary": "\#0000FF"
}
// Contrast ratio below the 4.5:1 requirement
Output color palette: {
"textColor": "\#CCCCCC", "backgroundColor": "\#FFFFFF",
"primary": "\#EEEEEE", "secondary": "\#DDDDDD"
}
মূল্যায়ন মানদণ্ড এবং পদ্ধতি সংজ্ঞায়িত করুন
কোনো আউটপুট আপনার প্রত্যাশা পূরণে কীভাবে ব্যর্থ হয়, তার উপর ভিত্তি করে আপনি মূল্যায়নের মানদণ্ড ও পদ্ধতি নির্ধারণ করতে পারেন:
- বস্তুনিষ্ঠ মানদণ্ড পরীক্ষা করার জন্য, নিয়ম-ভিত্তিক মূল্যায়ন তৈরি করুন (সাধারণ কোড ব্যবহার করুন)।
- ব্যক্তিগত মানদণ্ডগুলো যাচাই করার জন্য একটি বিচারক মডেল ব্যবহার করুন।
| মূল্যায়ন মানদণ্ড | মূল্যায়ন পদ্ধতি |
|---|---|
| ডেটার ফরম্যাট সঠিক: বৈধ JSON, সমস্ত কী উপস্থিত, হেক্সাডেসিমাল রঙ, কোনো খালি মান নেই, নীতিবাক্যটি ছয় শব্দের কম। | নিয়ম-ভিত্তিক (বস্তুনিষ্ঠ) |
| টেক্সট ও ব্যাকগ্রাউন্ডের রঙের বৈসাদৃশ্য অনুপাতটি অ্যাক্সেসযোগ্য। | নিয়ম-ভিত্তিক |
| মূলমন্ত্রটি ব্র্যান্ড, দর্শক এবং ভাবভঙ্গির সাথে সামঞ্জস্যপূর্ণ। | এলএলএম বিচারক (ব্যক্তিগত মতামত) |
| রঙের বিন্যাসটি ব্র্যান্ড, দর্শক এবং ভাবের সাথে সামঞ্জস্যপূর্ণ। | এলএলএম বিচারক |
| নীতিবাক্যটি বিষাক্ত নয় | এলএলএম বিচারক |
রুব্রিক
নিখুঁত সৃজনশীল নীতিবাক্য বা রঙের বিন্যাস বলে কিছু নেই। তাই থিমবিল্ডারের আউটপুটকে কোনো আদর্শ ফলাফলের সাথে তুলনা না করে, বিচারককে সুস্পষ্ট নির্দেশিকা দিন।
// Example rubric for color palette brand fit
Criteria:
1. **Psychological and literal association**: Do the colors logically map
to the literal product and evoke the right vibe?
2. **Constraint verification**: Does the palette violate any fundamental
keywords (such as "sustainable", "discreet", or "organic")?
3. **Appropriate and harmonious**: Is the palette suitable for the company's
industry baseline, regardless of secondary trendy adjectives?
কাজ-নির্দিষ্ট মানদণ্ড ব্যবহার করুন
আপনার ব্যবহার-ক্ষেত্র-নির্দিষ্ট মেট্রিকগুলোর পাশাপাশি, কাজের সাথে প্রাসঙ্গিক সাধারণ মানদণ্ড ও মেট্রিক ব্যবহার করুন। উদাহরণস্বরূপ, সারসংক্ষেপ তৈরির জন্য প্রচলিত মেট্রিকগুলোর মধ্যে রয়েছে:
- সামঞ্জস্য : সারাংশটি ব্যবহারকারীর নির্দিষ্ট নির্দেশনা, সুর বা শৈলী অনুসরণ করে।
- সংক্ষিপ্ততা : সারসংক্ষেপে ঠিক ততটুকুই বলা হয়েছে যতটুকু প্রয়োজন, এর বেশি কিছু নয়।
- সমৃদ্ধি : সারাংশটিতে সকল মূল বিষয় অন্তর্ভুক্ত রয়েছে।
- সঠিকতা : সারসংক্ষেপটি তথ্যভিত্তিক ও সত্য।
- ভিত্তি : বিভ্রম রোধ করার জন্য প্রতিটি দাবির উৎস পর্যন্ত যাচাই করা হয়।
পূর্ব-নির্মিত মূল্যায়ন
মূল্যায়ন সমাধান এবং সরঞ্জামগুলি পরিচালিত মূল্যায়ন বা পূর্ব-নির্মিত মেট্রিক্স প্রদান করে যা আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত হতে পারে। কী কী উপলব্ধ আছে তা অন্বেষণ করুন।