Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sumber dan alat

Daftar tidak lengkap sumber yang digunakan dalam kursus ini dan alat evaluasi yang dapat membantu Anda.

Maud Nalpas

Untuk referensi lainnya tentang pengujian dan AI, sebaiknya lihat referensi berikut.

Mempelajari Pengujian: Perbarui pendekatan Anda terhadap pengujian.
Pelajari AI: Mendesain sistem AI untuk situs dan aplikasi web Anda.
Evaluasi Google DeepMind: Beberapa alat tolok ukur standar untuk berbagai jenis model
Panduan Evaluasi Gemini: Resep untuk bereksperimen dan mengevaluasi model AI generatif dengan Vertex AI.
Toolkit Responsible AI: Mengevaluasi keamanan model dan sistem.
Mengevaluasi evaluasi Anda: Pelajaran meta tentang cara memahami evaluasi yang akan digunakan, dan apa yang berfungsi secara efektif.
Membangun tolok ukur AI yang lebih baik: Berapa banyak pemberi rating yang cukup? Memahami framework evaluasi untuk model ML yang mengoptimalkan kompromi antara jumlah item dan pemberi rating per item, untuk membangun tolok ukur AI yang dapat direproduksi.

Sumber kursus

Kami mengandalkan beberapa sumber untuk menulis seri ini, termasuk:

AI Engineering: Building Applications with Foundation Models, Chip Huyen
Mengurangi risiko QA untuk aplikasi yang didukung LLM oleh Michael Hablich, Chrome DevTools
Using LLM-as-a-Judge For Evaluation: A Complete Guide oleh Hamel Husain

Contoh solusi dan alat evaluasi meliputi:

Ada banyak alat evaluasi lainnya yang tersedia. Jika Anda menggunakan alat lain, bagikan kepada kami.