এলএলএম-এর আকর্ষণ আমাদের টেস্টিং এড়িয়ে যেতে প্রলুব্ধ করতে পারে, কিন্তু আত্মবিশ্বাসের সাথে পণ্য সরবরাহ করার চাবিকাঠি হলো মূল্যায়ন।
ধরুন, আপনি একটি ওয়েব-ভিত্তিক থিম বিল্ডারের প্রোটোটাইপ তৈরি করছেন। এটি একটি মজার টুল: একটি ওয়েব অ্যাপ্লিকেশনে, একজন ব্যবহারকারী কোম্পানির নাম ও বিবরণ, টার্গেট অডিয়েন্স এবং একটি টোন ও মুড ইনপুট করেন। ফ্রন্টএন্ড এই তথ্য আপনার সার্ভারে পাঠিয়ে দেয়। আপনার সার্ভার একটি লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) ব্যবহার করে প্রত্যাশিত টোন ও মুডের সাথে মেলে এমন একটি সৃজনশীল মূলমন্ত্র এবং ব্র্যান্ডের সাথে সামঞ্জস্যপূর্ণ একটি অ্যাক্সেসিবল কালার প্যালেট তৈরি করে। এটি এই ডেটা একটি ছোট JSON অবজেক্ট হিসেবে ফেরত পাঠায়।
আমরা এই অ্যাপ্লিকেশনটির নাম দেবো ThemeBuilder।

আপনি একটি ফাউন্ডেশন এলএলএম বেছে নেন এবং এর বিষয়বস্তুর ওপর ভিত্তি করে কাজ করেন। আপনার প্রতিষ্ঠানের ডিজাইনারের রঙের বিন্যাস পছন্দ হয়েছে, এবং মূলমন্ত্রগুলোও বেশ আকর্ষণীয় মনে হচ্ছে।
এখন, আপনার নিম্নলিখিত প্রশ্নগুলো রয়েছে:
- এটি কি প্রোডাকশনের জন্য প্রস্তুত? আপনার অ্যাপ্লিকেশনের আউটপুট কোয়ালিটি যথেষ্ট সামঞ্জস্যপূর্ণ কিনা, তা আপনি জানেন না। কিছু অভ্যন্তরীণ পরীক্ষক ত্রুটিপূর্ণ প্যালেট বা ব্র্যান্ডের সাথে বেমানান স্লোগানের কথা জানান। একটি সমস্যা সমাধান করলে, আরও দুটি বাগ দেখা দেয়।
- আমি কি মডেল পরিবর্তন করতে পারি? ল্যাটেন্সি বাঁচাতে আপনি একই LLM-এর সর্বশেষ সংস্করণে আপগ্রেড করতে পারেন, অথবা খরচ কমাতে ম্যানেজড সার্ভিস থেকে সেলফ-হোস্টেড মডেলে যেতে পারেন। এটি আপনার অ্যাপ্লিকেশনের আউটপুট উন্নত করবে নাকি খারাপ করবে, তা আপনি জানেন না; রিগ্রেশন পরীক্ষা করার কোনো উপায় আপনার কাছে নেই।
- এটা পাঠানো কি নিরাপদ? একবার কেউ একজন বিষাক্ত বর্জ্য নির্গমনের কথা জানিয়েছিল, কিন্তু এর পুনরাবৃত্তি ঘটানো যাচ্ছে না। এটা কি আকস্মিক ঘটনা, নাকি উৎক্ষেপণটি বন্ধ করে দেওয়া উচিত?
এলএলএম-এর আউটপুটের গুণমানে ব্যাপক তারতম্য থাকায় আপনার দল লঞ্চটি থামিয়ে দেয়। পরীক্ষা ছাড়া পণ্যটি বাজারে ছাড়ার মতো আস্থা তৈরি করা কঠিন।
পরীক্ষা না করে অনুমান কেন?
এআই ব্যবহার করে প্রথমবার কিছু তৈরি করার সময়, কয়েকটি আউটপুট দেখে সেগুলোকে ঠিকঠাক মনে করে সামনে এগিয়ে যাওয়ার প্রবণতা দেখা যায়। পরিমাপ এবং তথ্যের পরিবর্তে আপনি কেন স্বজ্ঞার উপর নির্ভর করতে পারেন?

সম্ভবত আপনি এমনটা করেন কারণ এলএলএম (LLM) নির্ণায়ক না হয়ে সম্ভাবনামূলক হয়। এর মানে হলো, আপনি একই কোম্পানির নাম, বিবরণ, দর্শক এবং ভাবভঙ্গি প্রদান করলেও থিমবিল্ডার (ThemeBuilder) একটি ভিন্ন নীতিবাক্য এবং রঙের প্যালেট তৈরি করতে পারে।
একটি আকর্ষণীয় মূলমন্ত্র বা ব্র্যান্ডের সাথে মানানসই রঙের বিন্যাস কী, তার কোনো একটি নির্দিষ্ট সঠিক উত্তর নেই।
এলএলএম-এর সৃজনশীলতা চমৎকার। কিন্তু অনির্দিষ্টতা প্রকৌশলের ধারণার সাথে বেমানান বলে মনে হয়। তাই আপনি এই সিদ্ধান্তে আসতে পারেন যে এলএলএম-ভিত্তিক অ্যাপ্লিকেশনগুলো সম্ভবত পরীক্ষাযোগ্য নয়।
মূল্যায়ন উদ্ধারে এগিয়ে এলো

এলএলএম জগতে, উন্নয়নের সর্বোত্তম অনুশীলনগুলো এখনও প্রাসঙ্গিক। আমরা আমাদের এলএলএম-ভিত্তিক অ্যাপ্লিকেশনগুলো পরীক্ষা করতে পারি এবং আমাদের তা করা উচিত। এর জন্য শুধু ভিন্ন কৌশলের প্রয়োজন। এই কৌশলগুলোকে বলা হয় ইভ্যালুয়েশন , বা সংক্ষেপে ইভ্যাল (evals)। ইভ্যালের জন্য নতুন কর্মপ্রবাহের প্রয়োজন হয়, কিন্তু আপনার বিদ্যমান টেস্টিং দক্ষতা সরাসরি চমৎকার ইভ্যাল তৈরিতে কাজে লাগে।
ইভ্যাল হলো আপনার এআই ফিচারগুলোর জন্য করা পরীক্ষা। এই পরীক্ষাগুলো আপনাকে একটি গুরুত্বপূর্ণ ফিডব্যাক লুপ তৈরি করতে সাহায্য করে: যদি আপনি একটি শক্তিশালী ইভ্যাল পাইপলাইন তৈরি করেন, তবে আপনার এলএলএম-ভিত্তিক ফিচারগুলো ব্যবহারকারীদের জন্য ভালোভাবে কাজ করবে। এরপর, আপনার টিম আত্মবিশ্বাসের সাথে ফিচারগুলো প্রকাশ করতে পারবে।
আপনি যদি এলএলএম (LLM) ব্যবহার করে কিছু তৈরি করেন, তবে শক্তিশালী মূল্যায়ন (eval) পদ্ধতি প্রয়োগ করতে শেখা আপনার সময়ের অন্যতম সেরা ব্যবহার হবে।
এখন, মূল্যায়ন সম্পর্কে জানুন!