एलएलएम की मदद से, टेस्टिंग को स्किप करने का मन हो सकता है. हालांकि, एलएलएम के परफ़ॉर्मेंस का आकलन करना, आपको भरोसे के साथ शिपिंग करने में मदद करता है.
मान लें कि आपको वेब पर काम करने वाले थीम बिल्डर का प्रोटोटाइप बनाना है. यह एक मज़ेदार टूल है: वेब ऐप्लिकेशन में, उपयोगकर्ता कंपनी का नाम और जानकारी, टारगेट ऑडियंस, और टोन और मूड डालता है. फ़्रंटएंड, इसे आपके सर्वर पर भेजता है. आपका सर्वर, लार्ज लैंग्वेज मॉडल (एलएलएम) का इस्तेमाल करके एक क्रिएटिव मोटो जनरेट करता है. यह मोटो, टोन और मूड के हिसाब से होता है. साथ ही, इसमें ब्रैंड के हिसाब से सुलभ कलर पैलेट का इस्तेमाल किया जाता है. यह डेटा को छोटे JSON ऑब्जेक्ट के तौर पर दिखाता है.
हम इस ऐप्लिकेशन को ThemeBuilder कहेंगे.
आपको एक फ़ाउंडेशन एलएलएम चुनना होगा और प्रॉम्प्ट को दोहराना होगा. आपकी कंपनी के डिज़ाइनर को कलर पैलेट पसंद आए. साथ ही, उन्हें नारे भी दिलचस्प लगे.
अब आपके पास ये सवाल हैं:
- क्या यह प्रोडक्शन के लिए तैयार है? आपको यह नहीं पता कि आपके ऐप्लिकेशन के आउटपुट की क्वालिटी एक जैसी है या नहीं. कुछ इंटरनल टेस्टर ने बताया कि पैलेट काम नहीं कर रहे हैं या ब्रैंड के मोटो गलत हैं. एक समस्या ठीक करने पर, दो और समस्याएं दिखती हैं.
- क्या मेरे पास मॉडल बदलने का विकल्प है? ऐसा हो सकता है कि आपको लेटेन्सी कम करने के लिए, उसी एलएलएम के नए वर्शन पर अपग्रेड करना हो. इसके अलावा, लागत कम करने के लिए, मैनेज की गई सेवा से सेल्फ-होस्ट किए गए मॉडल पर स्विच करना हो. आपको यह नहीं पता कि इससे आपके ऐप्लिकेशन के आउटपुट में सुधार होगा या वह खराब हो जाएगा. साथ ही, आपके पास रिग्रेशन की जांच करने का कोई तरीका नहीं है.
- क्या इसे शिप करना सुरक्षित है? किसी व्यक्ति ने एक बार ज़हरीले कॉन्टेंट की शिकायत की है, लेकिन उसे दोबारा नहीं बनाया जा सकता. क्या यह एक संयोग है या आपको लॉन्च को ब्लॉक करना चाहिए?
एलएलएम के आउटपुट की क्वालिटी में बहुत ज़्यादा अंतर होने की वजह से, आपकी टीम ने लॉन्च रोक दिया है. टेस्टिंग के बिना, शिपिंग के लिए भरोसा बनाना मुश्किल है.
टेस्ट करने के बजाय अनुमान क्यों लगाना चाहिए?
एआई की मदद से पहली बार कैंपेन बनाते समय, कुछ आउटपुट देखने के बाद यह तय करना आसान होता है कि वे ठीक हैं और आगे बढ़ा जा सकता है. आपको मेज़रमेंट और डेटा के बजाय, अपनी सोच पर भरोसा क्यों करना चाहिए?
ऐसा इसलिए किया जाता है, क्योंकि एलएलएम डिटरमिनिस्टिक के बजाय, संभाव्यता पर आधारित होते हैं. इसका मतलब है कि कंपनी का एक ही नाम, जानकारी, ऑडियंस, और टोन देने पर भी, ThemeBuilder अलग-अलग आदर्श वाक्य और कलर पैलेट जनरेट कर सकता है.
पंचलाइन वाले नारे या ब्रैंड के हिसाब से कलर पैलेट का कोई एक सही जवाब नहीं होता.
एलएलएम की क्रिएटिविटी बहुत अच्छी है. हालांकि, नॉनडिटरमिनिज़्म, इंजीनियरिंग के सिद्धांत के हिसाब से सही नहीं है. इसलिए, यह कहा जा सकता है कि एलएलएम पर आधारित ऐप्लिकेशन की शायद जाँच नहीं की जा सकती.
Evals to the rescue

एलएलएम की दुनिया में, डेवलपमेंट के सबसे सही तरीके अब भी मान्य हैं. हमें एलएलएम पर आधारित ऐप्लिकेशन की जांच करनी चाहिए. हमें बस अलग-अलग तकनीकों की ज़रूरत है. इन तकनीकों को इवैलुएशन या छोटे शब्दों में इवैल कहा जाता है. Evals में नए वर्कफ़्लो शामिल होते हैं. हालांकि, टेस्टिंग से जुड़ी आपकी मौजूदा विशेषज्ञता, सीधे तौर पर बेहतरीन Evals बनाने में काम आती है.
इवैल, एआई की सुविधाओं के लिए टेस्ट होते हैं. इन टेस्ट से, आपको अहम सुझाव/राय पाने में मदद मिलती है: अगर आपने अच्छी तरह से काम करने वाली इवैलुएशन पाइपलाइन बनाई है, तो एलएलएम पर आधारित आपकी सुविधाएं, उपयोगकर्ताओं के लिए बेहतर तरीके से काम करेंगी. इसके बाद, आपकी टीम भरोसे के साथ आपकी सुविधाओं को शिप कर सकती है.
अगर एलएलएम का इस्तेमाल किया जा रहा है, तो मज़बूत आकलन लागू करने का तरीका सीखना, आपके समय का सबसे अच्छा इस्तेमाल है.
अब, परफ़ॉर्मेंस की जांच करने के बारे में जानें!