ขอแนะนำ AI Evals: อย่าคาดเดา ให้วัดผล

ความมหัศจรรย์ของ LLM อาจทำให้เราอยากข้ามการทดสอบ แต่การประเมินคือกุญแจสำคัญที่จะช่วยให้คุณมั่นใจในการเผยแพร่

ลองจินตนาการว่าคุณกำลังสร้างต้นแบบเครื่องมือสร้างธีมบนเว็บ เครื่องมือนี้ใช้งานสนุก โดยในเว็บแอปพลิเคชัน ผู้ใช้จะป้อนชื่อและคำอธิบายบริษัท กลุ่มเป้าหมาย รวมถึงน้ำเสียงและอารมณ์ ส่วนหน้าจะส่งข้อมูลนี้ไปยังเซิร์ฟเวอร์ของคุณ เซิร์ฟเวอร์ของคุณใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อสร้างคำขวัญครีเอทีฟโฆษณาที่ ตรงกับโทนและอารมณ์ที่คาดไว้ รวมถึงชุดสีที่เข้าถึงได้ซึ่งสอดคล้อง กับแบรนด์ โดยจะแสดงข้อมูลนี้เป็นออบเจ็กต์ JSON ขนาดเล็ก

เราจะเรียกแอปพลิเคชันนี้ว่า ThemeBuilder

อินพุตและเอาต์พุตของ ThemeBuilder
ThemeBuilder แสดงธีมตัวอย่างสำหรับ บริษัท Midnight Coffee แอปพลิเคชันจะใช้ชื่อบริษัท คำอธิบาย กลุ่มเป้าหมาย และโทนเสียงเพื่อสร้างคำขวัญและชุดสี

คุณเลือก LLM พื้นฐานและทำซ้ำในพรอมต์ นักออกแบบภายในของคุณ ชอบชุดสีและคำขวัญที่ฟังดูติดหู

ตอนนี้คุณมีคำถามต่อไปนี้

  1. พร้อมใช้งานจริงแล้วหรือยัง คุณไม่ทราบว่าคุณภาพเอาต์พุตของแอปพลิเคชัน มีความสม่ำเสมอเพียงพอหรือไม่ ผู้ทดสอบภายในบางรายรายงานว่าจานสี ไม่ถูกต้องหรือคำขวัญไม่ตรงกับแบรนด์ เมื่อแก้ไขเคสหนึ่งแล้ว ข้อบกพร่องอีก 2 รายการจะปรากฏขึ้น
  2. ฉันเปลี่ยนโมเดลได้ไหม คุณอาจต้องการอัปเกรดเป็น LLM เวอร์ชันล่าสุดของ LLM เดียวกันเพื่อลดเวลาในการตอบสนอง หรือเปลี่ยนจากบริการที่มีการจัดการเป็นโมเดลที่โฮสต์ด้วยตนเองเพื่อลดต้นทุน คุณไม่ทราบว่าการดำเนินการดังกล่าวจะปรับปรุงหรือทำให้เอาต์พุตของแอปพลิเคชันแย่ลง และไม่มีวิธีทดสอบการถดถอย
  3. การจัดส่งปลอดภัยไหม มีผู้รายงานว่าได้รับเอาต์พุตที่เป็นพิษ 1 ครั้ง แต่คุณไม่สามารถ สร้างเอาต์พุตดังกล่าวซ้ำได้ เป็นความผิดพลาดหรือคุณควรบล็อกการเปิดตัว

ทีมของคุณหยุดการเปิดตัวเนื่องจากคุณภาพเอาต์พุตของ LLM แตกต่างกันมากเกินไป การสร้างความมั่นใจในการจัดส่งโดยไม่มีการทดสอบเป็นเรื่องยาก

ทำไมต้องคาดเดาแทนที่จะทดสอบ

เมื่อสร้างด้วย AI เป็นครั้งแรก คุณอาจอยากดูผลลัพธ์เพียงไม่กี่รายการ แล้วตัดสินใจว่าผลลัพธ์เหล่านั้น ดูใช้ได้และดำเนินการต่อ เหตุใดคุณจึงอาจพึ่งสัญชาตญาณแทนการวัดผลและข้อมูล

อัลกอริทึมที่แน่นอนจะมีเอาต์พุต 1 รายการต่ออินพุต 1 รายการ อัลกอริทึมเชิงความน่าจะเป็นมีเอาต์พุตที่เป็นไปได้หลายรายการต่ออินพุต 1 รายการ

คุณอาจทำเช่นนี้เนื่องจาก LLM เป็นแบบ ดีเทอร์มินิสติกแทนที่จะเป็นแบบสุ่ม ซึ่งหมายความว่า แม้ว่าคุณจะระบุชื่อบริษัท คำอธิบาย กลุ่มเป้าหมาย และ โทนเดียวกัน ThemeBuilder ก็อาจแสดงสโลแกนและชุดสีที่แตกต่างกัน

ไม่มีคำตอบที่ถูกต้องเพียงหนึ่งเดียวสำหรับคำขวัญที่โดนใจหรือ ชุดสีที่สอดคล้องกับแบรนด์

ความคิดสร้างสรรค์ของ LLM นั้นยอดเยี่ยม แต่ความไม่แน่นอนนั้นดูขัดแย้งกับแนวคิดเรื่อง วิศวกรรม คุณจึงอาจสรุปได้ว่าแอปพลิเคชันที่อิงตาม LLM อาจ ทดสอบไม่ได้

การประเมินช่วยคุณได้

ในโลกของ LLM แนวทางปฏิบัติแนะนำในการพัฒนาจะยังคงใช้ได้ เราสามารถและ ควรทดสอบแอปพลิเคชันที่ใช้ LLM เราแค่ต้องใช้เทคนิคที่แตกต่างกัน เราเรียกเทคนิคเหล่านี้ว่าการประเมิน หรือเรียกสั้นๆ ว่า Eval Evals เกี่ยวข้องกับเวิร์กโฟลว์ใหม่ แต่ความเชี่ยวชาญด้านการทดสอบที่มีอยู่จะนำไปใช้ในการสร้าง Evals ที่ยอดเยี่ยมได้โดยตรง

Evals คือการทดสอบฟีเจอร์ AI การทดสอบเหล่านี้ช่วยให้คุณสร้างการเก็บฟีดแบ็กมาแก้ไขที่สำคัญได้ กล่าวคือ หากสร้างไปป์ไลน์การประเมินที่แข็งแกร่ง ฟีเจอร์ที่ใช้ LLM จะทำงานได้ดีสำหรับผู้ใช้ จากนั้นทีมของคุณจะสามารถเปิดตัวฟีเจอร์ได้อย่างมั่นใจ

หากคุณกำลังสร้างด้วย LLM การเรียนรู้วิธีใช้การประเมินที่มีประสิทธิภาพคือหนึ่งในวิธีใช้เวลาของคุณให้เกิดประโยชน์สูงสุด

ตอนนี้มาดูเรื่องการประเมินกัน