Daftar tidak lengkap sumber yang digunakan dalam kursus dan alat evaluasi ini yang dapat membantu Anda.
Untuk mengetahui lebih banyak referensi tentang pengujian dan AI, sebaiknya lihat referensi berikut.
- Mempelajari Pengujian: Perbarui pendekatan Anda terhadap pengujian.
- Mempelajari AI: Desain sistem AI untuk situs dan aplikasi web Anda.
- Google DeepMind Evals: Beberapa alat benchmarking standar untuk berbagai jenis model
- Gemini Evaluations Playbook: Resep untuk bereksperimen dan mengevaluasi model AI generatif dengan Vertex AI.
- Toolkit AI yang bertanggung jawab: Mengevaluasi model dan sistem untuk keamanan.
- Mengevaluasi evaluasi Anda: Pelajaran meta tentang cara memahami evaluasi yang akan digunakan, dan apa yang berfungsi secara efektif.
- Membuat benchmark AI yang lebih baik: Berapa banyak penilai yang cukup? Memahami framework evaluasi untuk model ML yang mengoptimalkan kompromi antara jumlah item dan penilai per item, untuk membuat benchmark AI yang dapat direproduksi.
Sumber kursus
Kami mengandalkan beberapa sumber untuk menulis seri ini, termasuk:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- De-risking QA for LLM-powered applications oleh Michael Hablich, Chrome DevTools
- Using LLM-as-a-Judge For Evaluation: A Complete Guide oleh Hamel Husain
Alat evaluasi
Contoh solusi dan alat evaluasi mencakup:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Layanan evaluasi AI generatif dan API
- Inspect Evals
- JudgeLM
- LangSmith
- Evaluation harness
- OpenEvals
Ada banyak alat evaluasi lainnya yang tersedia. Jika Anda menggunakan alat lain, bagikan kepada kami.