Niepełna lista źródeł użytych w tym kursie i narzędzi do oceny, które mogą Ci pomóc.
Więcej informacji o testowaniu i AI znajdziesz w tych materiałach.
- Poznaj testowanie: odśwież swoje podejście do testowania.
- Poznaj AI: projektuj systemy AI na potrzeby witryn i aplikacji internetowych.
- Google DeepMind Evals: wiele standardowych narzędzi do testowania różnych typów modeli.
- Przewodnik po ocenach Gemini: przepisy na eksperymentowanie z modelami generatywnej AI i ich ocenianie za pomocą Vertex AI.
- Zestaw narzędzi do odpowiedzialnej AI: oceniaj modele i systemy pod kątem bezpieczeństwa.
- Ocena ocen: lekcja metadanych o tym, jak zrozumieć, których ocen używać i co działa skutecznie.
- Tworzenie lepszych testów porównawczych AI: ilu oceniających wystarczy? Poznaj ramy oceny modeli ML, które optymalizują kompromis między liczbą elementów a oceniających na element, aby tworzyć powtarzalne testy porównawcze AI.
Źródła kursu
Podczas pisania tej serii korzystaliśmy z różnych źródeł, m.in.:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- De-risking QA for LLM-powered applications (Ryzyko związane z zapewnianiem jakości aplikacji opartych na dużych modelach językowych) – Michael Hablich, Narzędzia deweloperskie w Chrome
- Using LLM-as-a-Judge For Evaluation: A Complete Guide (Hamel Husain)
Narzędzia do oceny
Przykłady rozwiązań i narzędzi do oceny:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Usługa oceny generatywnej AI i interfejs API
- Sprawdzanie ocen
- JudgeLM
- LangSmith
- Narzędzie do oceny
- OpenEvals
Dostępnych jest wiele innych narzędzi do oceny. Jeśli używasz innych narzędzi, podziel się nimi z nami.