Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
학습 내용
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
이 시리즈에서 다루는 내용과 시작하기 전에 알아야 할 사항
이 시리즈에서는 예시 애플리케이션인 ThemeBuilder의 평가 (eval)를 빌드합니다. 다음 작업을 수행하는 방법을 배우게 됩니다.
사용자에게 제공할 수 있다고 확신할 수 있도록 강력한 엔드 투 엔드 평가 워크플로를 빌드합니다.
LLM을 평가 모델로 사용하는 패턴을 사용하여 주관적인 품질을 측정합니다. 최소한의 설정으로 평가 모델을 만들거나 고급 기법을 사용하여 최상위 도메인 전문가처럼 생각하는 커스텀 평가 모델을 개발합니다.
빌드 시간 (CI/CD) 및 프로덕션에서 평가를 실행하여 파이프라인을 자동화하고 회귀를 조기에 포착합니다.
통계적 신뢰도를 제공하고 결과가 테스트 풀에서 무작위로 추출된 것이 아님을 증명하는 기법을 적용하고 평가 디자인을 최적화하여 미묘한 회귀를 포착합니다.
평가를 사용하여 사용 사례에 가장 적합한 모델을 선택합니다.
주요 용어: 평가 모델 은 다른 모델의 출력을 대규모로 평가하는 언어 모델입니다. 모델은 허용 가능한 응답이 무엇인지에 대한 진실의 소스로 작동하기 위해 라벨이 지정된 데이터 세트에 의존합니다.
접근 방식
이 시리즈를 시작점으로 생각하세요. 표준 업계 권장사항을 기반으로 한 기본 가이드만 사용하여 전체 평가 파이프라인을 빌드하고 수준을 높일 준비가 되면 고급 기법을 살펴볼 수 있습니다.
기성 평가 플랫폼을 사용하든 직접 빌드하든 배우게 될 개념과 기법은 도구에 구애받지 않습니다. 이러한 개념과 기법의 이유를 이해하면 선택한 스택과 관계없이 일반적인 함정을 피하고 전문가 평가 파이프라인을 개발하는 데 도움이 됩니다.
완료되면 프롬프트를 반복하거나, LLM을 업그레이드하거나, LLM을 전환하면서 사용자에게 자신 있게 제공하는 방법을 알게 됩니다.
기본 요건
LLM으로 빌드한 경험이 있어야 합니다. 다음 사항에 이미 익숙하다고 가정합니다.
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스 에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스 에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책 을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2026-04-16(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2026-04-16(UTC)"],[],[]]