Kết luận

Bạn đã hoàn thành khoá học của chúng tôi về hoạt động đánh giá AI. Bạn đã liên kết kiến thức kiểm thử web hiện có với thế giới của LLM, tạo các kiểm thử đơn vị dựa trên quy tắc, xây dựng và kiểm thử mô hình đánh giá, đồng thời thiết lập quy trình kiểm thử.

Ngành của chúng tôi lo ngại về cảm xúc và tính không xác định của LLM. Trên thực tế, nếu từng tạo một ứng dụng web cần hoạt động trơn tru trên nhiều trình duyệt, thiết bị và kích thước màn hình, thì bạn đã chuẩn bị sẵn sàng cho việc này. Một đầu vào dẫn đến nhiều hành vi có thể xảy ra, một môi trường mà bạn không thể kiểm soát hoàn toàn và câu nói nổi tiếng "Chạy được trên máy của tôi".

Giải pháp đang được kiểm thử. Đánh giá chính là những bài kiểm thử cho các tính năng AI của bạn. Các kiểm thử trên web giúp bạn tự tin phát hành trong môi trường trình duyệt thực tế và các quy trình đánh giá cũng làm điều tương tự cho các tính năng AI của bạn. Xây dựng các bản đánh giá và bắt đầu vận chuyển!

Trước khi bắt đầu, hãy dành chút thời gian để tự hỏi mình một số câu hỏi chính: Điều gì khiến một kết quả đầu ra trở nên "tệ"? Xác định các trường hợp thất bại. Làm quen kỹ lưỡng với dữ liệu của bạn và cộng tác chặt chẽ với các chuyên gia trong lĩnh vực. Điều gì khiến một kết quả đầu ra trở nên "tốt" thay vì "lý tưởng"? Xác định rõ kỳ vọng của bạn trước khi yêu cầu mô hình chấm điểm. Bạn sẽ chạy quy trình đánh giá bao lâu một lần? Phát triển dựa trên đánh giá là một phương pháp bạn có thể áp dụng, nhưng hãy đặt ra kỳ vọng về tần suất đánh giá sau khi triển khai ứng dụng.

Lĩnh vực AI phát triển nhanh chóng và việc xây dựng một quy trình hoàn chỉnh có thể khiến bạn cảm thấy quá tải. Bắt đầu từ những việc nhỏ: viết một bài kiểm thử dựa trên quy tắc và tạo một trình đánh giá LLM cơ bản. Sau khi xác định được đường cơ sở đó, bạn sẽ không cần phải đoán nữa và có thể lấy lại quyền kiểm soát với tư cách là một kỹ sư. Bạn sẽ vượt qua khoảng cách từ một nguyên mẫu nội bộ thú vị đến một tính năng mạnh mẽ mà bạn có thể kiểm thử, đo lường và phát hành một cách tự tin. Hãy nhớ rằng các bản đánh giá do con người tạo ra có thể mắc phải những sai sót của con người. Thiên kiến được tích hợp sẵn. Triển khai các quy trình kiểm tra thường xuyên đối với mô hình và hoạt động đánh giá của bạn để giải quyết vấn đề thiên kiến.

Hãy theo dõi khoá học này để tạo các bài kiểm thử đầu tiên, xem mã đi kèm và bắt đầu kiểm thử. Chia sẻ những gì bạn đã học được: Bạn đang chạy các quy trình đánh giá như thế nào? Hãy liên hệ với chúng tôi tại @ChromiumDev, chia sẻ với chúng tôi trên BlueSky hoặc đặt lịch hẹn gặp mặt trực tiếp với Nhóm AI của Web.dev.