Danh sách chưa đầy đủ về các nguồn được sử dụng trong khoá học này và các công cụ đánh giá có thể giúp bạn.
Để biết thêm các tài nguyên về kiểm thử và AI, bạn nên tham khảo các tài nguyên sau.
- Tìm hiểu về thử nghiệm: Làm mới phương pháp thử nghiệm của bạn.
- Tìm hiểu về AI: Thiết kế hệ thống AI cho trang web và ứng dụng web của bạn.
- Google DeepMind Evals: Nhiều công cụ đo điểm chuẩn tiêu chuẩn hoá cho nhiều loại mô hình
- Sổ tay đánh giá Gemini: Các công thức để thử nghiệm và đánh giá mô hình AI tạo sinh bằng Vertex AI.
- Bộ công cụ AI có trách nhiệm: Đánh giá các mô hình và hệ thống để đảm bảo an toàn.
- Đánh giá các đánh giá của bạn: Một bài học meta về cách hiểu những đánh giá cần sử dụng và những đánh giá hoạt động hiệu quả.
- Xây dựng các điểm chuẩn AI tốt hơn: Cần bao nhiêu người đánh giá? Tìm hiểu một khung đánh giá cho các mô hình học máy giúp tối ưu hoá sự đánh đổi giữa số lượng mặt hàng và người gán nhãn trên mỗi mặt hàng, để tạo ra các điểm chuẩn AI (trí tuệ nhân tạo) có thể tái tạo.
Nguồn của khoá học
Chúng tôi dựa vào một số nguồn để viết loạt bài này, bao gồm:
- Kỹ thuật AI: Xây dựng các ứng dụng bằng mô hình cơ sở, Chip Huyen
- Giảm rủi ro cho hoạt động kiểm thử đảm bảo chất lượng đối với các ứng dụng dựa trên LLM của Michael Hablich, Chrome DevTools
- Sử dụng LLM làm người đánh giá để đánh giá: Hướng dẫn đầy đủ của Hamel Husain
Công cụ đánh giá
Sau đây là một số ví dụ về các giải pháp và công cụ đánh giá:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Dịch vụ đánh giá AI tạo sinh và API
- Kiểm tra các bản đánh giá
- JudgeLM
- LangSmith
- Nền tảng đánh giá
- OpenEvals
Còn nhiều công cụ đánh giá khác. Nếu bạn đang sử dụng các công cụ khác, hãy chia sẻ với chúng tôi.