Bu kursta kullanılan kaynakların ve size yardımcı olabilecek değerlendirme araçlarının listesi (liste tam kapsamlı değildir).
Test ve yapay zeka ile ilgili daha fazla kaynak için aşağıdaki kaynakları incelemenizi öneririz.
- Test etmeyi öğrenin: Test etme yaklaşımınızı yenileyin.
- Learn AI: Web siteleriniz ve web uygulamalarınız için yapay zeka sistemleri tasarlayın.
- Google DeepMind Evals: Farklı model türleri için birden fazla standartlaştırılmış karşılaştırma aracı
- Gemini Evaluations Playbook: Vertex AI ile üretken yapay zeka modellerini deneme ve değerlendirme tarifleri.
- Sorumlu yapay zeka araç seti: Modelleri ve sistemleri güvenlik açısından değerlendirin.
- Değerlendirmelerinizi değerlendirme: Hangi değerlendirmelerin kullanılacağını ve nelerin etkili olduğunu anlamayla ilgili bir meta ders.
- Daha iyi yapay zeka karşılaştırmaları oluşturma: Kaç değerlendirici yeterlidir? Yapay zeka karşılaştırmaları oluşturmak için öğe sayısı ile öğe başına derecelendiren sayısı arasındaki dengeyi optimize eden bir makine öğrenimi modeli değerlendirme çerçevesini anlayın.
Kurs kaynakları
Bu seriyi yazarken aşağıdakiler de dahil olmak üzere çeşitli kaynaklardan yararlandık:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- Michael Hablich, Chrome Geliştirici Araçları tarafından LLM destekli uygulamalarda kalite güvencesiyle ilgili riskleri azaltma
- Hamel Husain'in Using LLM-as-a-Judge For Evaluation: A Complete Guide (Değerlendirme İçin LLM'yi Yargıç Olarak Kullanma: Eksiksiz Bir Kılavuz) adlı makalesi
Değerlendirme araçları
Değerlendirme çözümleri ve araçlarına örnek olarak aşağıdakiler verilebilir:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Üretken yapay zeka değerlendirme hizmeti ve API
- Değerlendirmeleri İnceleme
- JudgeLM
- LangSmith
- Değerlendirme koşulu
- OpenEvals
Kullanabileceğiniz daha birçok değerlendirme aracı vardır. Başka araçlar kullanıyorsanız bizimle paylaşın.