ขอแนะนำ AI Evals: อย่าคาดเดา ให้วัดผล

ความมหัศจรรย์ของ LLM อาจทำให้เราอยากข้ามการทดสอบ แต่การประเมินคือกุญแจสำคัญที่จะช่วยให้คุณมั่นใจในการเผยแพร่

Maud Nalpas

ลองจินตนาการว่าคุณกำลังสร้างต้นแบบเครื่องมือสร้างธีมบนเว็บ เครื่องมือนี้ใช้งานสนุก โดยในเว็บแอปพลิเคชัน ผู้ใช้จะป้อนชื่อและคำอธิบายบริษัท กลุ่มเป้าหมาย รวมถึงน้ำเสียงและอารมณ์ ส่วนหน้าจะส่งข้อมูลนี้ไปยังเซิร์ฟเวอร์ของคุณ เซิร์ฟเวอร์ของคุณใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อสร้างคำขวัญครีเอทีฟโฆษณาที่ ตรงกับโทนและอารมณ์ที่คาดไว้ รวมถึงชุดสีที่เข้าถึงได้ซึ่งสอดคล้อง กับแบรนด์ โดยจะแสดงข้อมูลนี้เป็นออบเจ็กต์ JSON ขนาดเล็ก

เราจะเรียกแอปพลิเคชันนี้ว่า ThemeBuilder

อินพุตและเอาต์พุตของ ThemeBuilder — ThemeBuilder แสดงธีมตัวอย่างสำหรับ บริษัท Midnight Coffee แอปพลิเคชันจะใช้ชื่อบริษัท คำอธิบาย กลุ่มเป้าหมาย และโทนเสียงเพื่อสร้างคำขวัญและชุดสี

คุณเลือก LLM พื้นฐานและทำซ้ำในพรอมต์ นักออกแบบภายในของคุณ ชอบชุดสีและคำขวัญที่ฟังดูติดหู

ตอนนี้คุณมีคำถามต่อไปนี้

พร้อมใช้งานจริงแล้วหรือยัง คุณไม่ทราบว่าคุณภาพเอาต์พุตของแอปพลิเคชัน มีความสม่ำเสมอเพียงพอหรือไม่ ผู้ทดสอบภายในบางรายรายงานว่าจานสี ไม่ถูกต้องหรือคำขวัญไม่ตรงกับแบรนด์ เมื่อแก้ไขเคสหนึ่งแล้ว ข้อบกพร่องอีก 2 รายการจะปรากฏขึ้น
ฉันเปลี่ยนโมเดลได้ไหม คุณอาจต้องการอัปเกรดเป็น LLM เวอร์ชันล่าสุดของ LLM เดียวกันเพื่อลดเวลาในการตอบสนอง หรือเปลี่ยนจากบริการที่มีการจัดการเป็นโมเดลที่โฮสต์ด้วยตนเองเพื่อลดต้นทุน คุณไม่ทราบว่าการดำเนินการดังกล่าวจะปรับปรุงหรือทำให้เอาต์พุตของแอปพลิเคชันแย่ลง และไม่มีวิธีทดสอบการถดถอย
การจัดส่งปลอดภัยไหม มีผู้รายงานว่าได้รับเอาต์พุตที่เป็นพิษ 1 ครั้ง แต่คุณไม่สามารถ สร้างเอาต์พุตดังกล่าวซ้ำได้ เป็นความผิดพลาดหรือคุณควรบล็อกการเปิดตัว

ทีมของคุณหยุดการเปิดตัวเนื่องจากคุณภาพเอาต์พุตของ LLM แตกต่างกันมากเกินไป การสร้างความมั่นใจในการจัดส่งโดยไม่มีการทดสอบเป็นเรื่องยาก

ทำไมต้องคาดเดาแทนที่จะทดสอบ

เมื่อสร้างด้วย AI เป็นครั้งแรก คุณอาจอยากดูผลลัพธ์เพียงไม่กี่รายการ แล้วตัดสินใจว่าผลลัพธ์เหล่านั้น ดูใช้ได้และดำเนินการต่อ เหตุใดคุณจึงอาจพึ่งสัญชาตญาณแทนการวัดผลและข้อมูล

อัลกอริทึมที่แน่นอนจะมีเอาต์พุต 1 รายการต่ออินพุต 1 รายการ อัลกอริทึมเชิงความน่าจะเป็นมีเอาต์พุตที่เป็นไปได้หลายรายการต่ออินพุต 1 รายการ

คุณอาจทำเช่นนี้เนื่องจาก LLM เป็นแบบ ดีเทอร์มินิสติกแทนที่จะเป็นแบบสุ่ม ซึ่งหมายความว่า แม้ว่าคุณจะระบุชื่อบริษัท คำอธิบาย กลุ่มเป้าหมาย และ โทนเดียวกัน ThemeBuilder ก็อาจแสดงสโลแกนและชุดสีที่แตกต่างกัน

ไม่มีคำตอบที่ถูกต้องเพียงหนึ่งเดียวสำหรับคำขวัญที่โดนใจหรือ ชุดสีที่สอดคล้องกับแบรนด์

ความคิดสร้างสรรค์ของ LLM นั้นยอดเยี่ยม แต่ความไม่แน่นอนนั้นดูขัดแย้งกับแนวคิดเรื่อง วิศวกรรม คุณจึงอาจสรุปได้ว่าแอปพลิเคชันที่อิงตาม LLM อาจ ทดสอบไม่ได้

การประเมินช่วยคุณได้

ในโลกของ LLM แนวทางปฏิบัติแนะนำในการพัฒนาจะยังคงใช้ได้ เราสามารถและ ควรทดสอบแอปพลิเคชันที่ใช้ LLM เราแค่ต้องใช้เทคนิคที่แตกต่างกัน เราเรียกเทคนิคเหล่านี้ว่าการประเมิน หรือเรียกสั้นๆ ว่า Eval Evals เกี่ยวข้องกับเวิร์กโฟลว์ใหม่ แต่ความเชี่ยวชาญด้านการทดสอบที่มีอยู่จะนำไปใช้ในการสร้าง Evals ที่ยอดเยี่ยมได้โดยตรง

Evals คือการทดสอบฟีเจอร์ AI การทดสอบเหล่านี้ช่วยให้คุณสร้างการเก็บฟีดแบ็กมาแก้ไขที่สำคัญได้ กล่าวคือ หากสร้างไปป์ไลน์การประเมินที่แข็งแกร่ง ฟีเจอร์ที่ใช้ LLM จะทำงานได้ดีสำหรับผู้ใช้ จากนั้นทีมของคุณจะสามารถเปิดตัวฟีเจอร์ได้อย่างมั่นใจ

หากคุณกำลังสร้างด้วย LLM การเรียนรู้วิธีใช้การประเมินที่มีประสิทธิภาพคือหนึ่งในวิธีใช้เวลาของคุณให้เกิดประโยชน์สูงสุด

ตอนนี้มาดูเรื่องการประเมินกัน

สิ่งที่คุณจะได้เรียนรู้