รายการแหล่งข้อมูลโดยสังเขปที่ใช้ในหลักสูตรนี้และเครื่องมือประเมินที่ช่วยคุณได้
หากต้องการแหล่งข้อมูลเพิ่มเติมเกี่ยวกับการทดสอบและ AI เราขอแนะนำแหล่งข้อมูลต่อไปนี้
- เรียนรู้การทดสอบ: ปรับแนวทางการทดสอบ
- เรียนรู้ AI: ออกแบบระบบ AI สำหรับเว็บไซต์และเว็บแอปพลิเคชัน
- Evals ของ Google DeepMind: เครื่องมือเปรียบเทียบมาตรฐานหลายรายการสำหรับโมเดลประเภทต่างๆ
- สมุดคู่มือการประเมิน Gemini: สูตรสำหรับการทดลองและประเมินโมเดล Generative AI ด้วย Vertex AI
- ชุดเครื่องมือ AI ที่มีความรับผิดชอบ: ประเมินความปลอดภัยของโมเดลและระบบ
- การประเมิน Evals: บทเรียนเมตาเกี่ยวกับวิธีทําความเข้าใจว่าควรใช้ Evals ใด และอะไรที่ได้ผลดี
- สร้างเกณฑ์เปรียบเทียบ AI ที่ดีขึ้น: ต้องใช้ผู้ให้คะแนนกี่คน ทําความเข้าใจกรอบการประเมินสําหรับโมเดล ML ที่เพิ่มประสิทธิภาพการแลกเปลี่ยนระหว่างจํานวนรายการและผู้ให้คะแนนต่อรายการ เพื่อสร้างเกณฑ์เปรียบเทียบ AI ที่ทําซ้ำได้
แหล่งที่มาของหลักสูตร
เราอ้างอิงจากแหล่งข้อมูลหลายแห่งในการเขียนชุดข้อมูลนี้ ซึ่งรวมถึง
- วิศวกรรม AI: การสร้างแอปพลิเคชันด้วยโมเดลพื้นฐาน Chip Huyen
- ลดความเสี่ยงในการ QA สำหรับแอปพลิเคชันที่ทำงานด้วย LLM โดย Michael Hablich, เครื่องมือสำหรับนักพัฒนาเว็บใน Chrome
- การใช้ LLM เป็นผู้ตัดสินสำหรับการประเมิน: คู่มือฉบับสมบูรณ์ โดย Hamel Husain
เครื่องมือประเมิน
ตัวอย่างโซลูชันและเครื่องมือการประเมิน ได้แก่
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- บริการประเมิน Gen AI และ API
- ตรวจสอบการประเมิน
- JudgeLM
- LangSmith
- ชุดเครื่องมือประเมิน
- OpenEvals
นอกจากนี้ยังมีเครื่องมือประเมินอีกมากมาย หากคุณใช้เครื่องมืออื่นๆ โปรดแชร์ให้เราทราบ