이 과정에서 사용된 소스 및 도움이 될 수 있는 평가 도구의 목록(전체 목록은 아님)
테스트 및 AI에 관한 자세한 내용은 다음 리소스를 참고하세요.
- 테스트 학습: 테스트 접근 방식을 새롭게 정립하세요.
- AI 학습: 웹사이트 및 웹 애플리케이션을 위한 AI 시스템을 설계합니다.
- Google DeepMind Evals: 다양한 유형의 모델을 위한 여러 표준화된 벤치마킹 도구
- Gemini 평가 플레이북: Vertex AI로 생성형 AI 모델을 실험하고 평가하는 방법
- 책임감 있는 AI 툴킷: 모델과 시스템의 안전성을 평가합니다.
- 평가 평가하기: 어떤 평가를 사용해야 하는지, 어떤 평가가 효과적인지 이해하는 방법에 관한 메타 수업입니다.
- 더 나은 AI 벤치마크 구축: 평가자 수는 얼마나 되어야 충분할까요? 재현 가능한 AI 벤치마크를 빌드하기 위해 항목당 항목 수와 평가자 간의 절충을 최적화하는 ML 모델 평가 프레임워크를 이해합니다.
강의 소스
이 시리즈는 다음과 같은 여러 소스를 참고하여 작성되었습니다.
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- Michael Hablich(Chrome DevTools)의 LLM 기반 애플리케이션의 QA 위험 감소
- Using LLM-as-a-Judge For Evaluation: A Complete Guide(평가를 위한 LLM-as-a-Judge 사용: 전체 가이드) by Hamel Husain
평가 도구
평가 솔루션 및 도구의 예는 다음과 같습니다.
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI 평가 서비스 및 API
- 평가 검사
- JudgeLM
- LangSmith
- 평가 하네스
- OpenEvals
사용할 수 있는 평가 도구는 훨씬 더 많습니다. 다른 도구를 사용하는 경우 Google과 공유해 주세요.