Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sumber dan alat

Daftar tidak lengkap sumber yang digunakan dalam kursus dan alat evaluasi ini yang dapat membantu Anda.

Maud Nalpas

Untuk mengetahui lebih banyak referensi tentang pengujian dan AI, sebaiknya lihat referensi berikut.

Mempelajari Pengujian: Perbarui pendekatan Anda terhadap pengujian.
Mempelajari AI: Desain sistem AI untuk situs dan aplikasi web Anda.
Google DeepMind Evals: Beberapa alat benchmarking standar untuk berbagai jenis model
Gemini Evaluations Playbook: Resep untuk bereksperimen dan mengevaluasi model AI generatif dengan Vertex AI.
Toolkit AI yang bertanggung jawab: Mengevaluasi model dan sistem untuk keamanan.
Mengevaluasi evaluasi Anda: Pelajaran meta tentang cara memahami evaluasi yang akan digunakan, dan apa yang berfungsi secara efektif.
Membuat benchmark AI yang lebih baik: Berapa banyak penilai yang cukup? Memahami framework evaluasi untuk model ML yang mengoptimalkan kompromi antara jumlah item dan penilai per item, untuk membuat benchmark AI yang dapat direproduksi.

Sumber kursus

Kami mengandalkan beberapa sumber untuk menulis seri ini, termasuk:

AI Engineering: Building Applications with Foundation Models, Chip Huyen
De-risking QA for LLM-powered applications oleh Michael Hablich, Chrome DevTools
Using LLM-as-a-Judge For Evaluation: A Complete Guide oleh Hamel Husain

Contoh solusi dan alat evaluasi mencakup:

Ada banyak alat evaluasi lainnya yang tersedia. Jika Anda menggunakan alat lain, bagikan kepada kami.