Эта страница переведена с помощью Cloud Translation API.

Создайте экспертного судью.

Подготовьте своего судью к производству.

Maud Nalpas

The basic judge you built in Set up a basic judge model , part 1 and part 2 , was based on self-labeled data. That's a great way to establish a testing baseline. However, to get production-grade quality, you need a judge that thinks like a domain specialist, and you need robust statistical metrics to trust it at scale. This is what we'll cover here.

Создайте набор данных для выравнивания с помощью экспертов.

Использование экспертов для разметки вашего набора данных выравнивания — ключ к созданию надежного судьи LLM. Приоритет отдается качеству, а не количеству. Тридцать высококачественных меток от эксперта в данной области намного лучше, чем 300 от неспециалистов.

Найти этикетировщики

Для обеспечения согласованности бренда используйте штатных дизайнеров и экспертов по брендингу. Для оценки токсичности вы можете полагаться на тех же специалистов или же использовать коллективный подход к оценке, основанный на единой системе критериев, чтобы гарантировать, что все специалисты используют одни и те же критерии оценки.

Сколько опытных специалистов по маркировке?

Один эксперт : Это быстро, и начинать можно, но ваш судья унаследует предвзятость этого человека.
Два эксперта : Это может быть отличным вариантом с точки зрения бюджета. Вы не сможете разрешить спорные вопросы, но сможете выявить разногласия.
Три и более : это золотой стандарт. Использование нечетного числа автоматически разрешает спорные ситуации при бинарных PASS и FAIL , как в нашем примере, поскольку можно ориентироваться на оценку большинства.

В случае с ThemeBuilder предположим, что вам повезло иметь в штате трех дизайнеров, которые согласны стать нашими экспертами по созданию этикеток.

Эксперты разрабатывают критерии оценки.

Прежде чем присваивать оценку, попросите экспертов определить строгую рубрику конкретных критериев для PASS . Это поможет экспертам быть последовательными в своих суждениях как индивидуально, так и коллективно.

Например:

Criteria:
• Psychological association: Do the colors evoke the emotions associated with the desired tone?
• Harmony: Do the colors work together to create the right atmosphere?
• Appropriateness: Is the palette suitable for the company's industry?

Эксперты присваивают данным соответствующие метки.

Поручите вашим экспертам оценить от 30 до 50 образцов, присвоить им оценку PASS или FAIL на основе критериев оценки и составить rationale своей оценки. Обоснование имеет ключевое значение, поскольку оно будет использоваться для выявления и устранения несоответствий между оценщиком и экспертами.

Интерфейс в виде электронных таблиц, который поможет вашим экспертам оценивать тематику. — Веб-приложение для опытных специалистов по разметке файлов. Этот пользовательский интерфейс создан по образцу AlignEvals от Юджина Яна.

Советы по эффективной маркировке

Ручная разметка — дорогостоящий процесс. Попробуйте следующие методы, чтобы повысить эффективность работы ваших специалистов:

Только проверка : используйте LLM для создания первоначальных меток и обоснований, а затем поручите экспертам провести аудит и исправить их. Проверка быстрее, чем создание заключения с нуля.
Выборочная маркировка : попросите второго эксперта проверить небольшую часть работы первого эксперта. Если он не согласен, остановитесь и исправьте критерии оценки, прежде чем ставить дальнейшие оценки.
Эксперт с дипломом магистра права (LLM) как второе мнение : пусть один эксперт и один судья с дипломом LLM оценят одни и те же пункты. Если совпадение оценок низкое, значит, судья с дипломом LLM по-разному понимает критерии оценки. Дорабатывайте критерии до тех пор, пока они не совпадут.
Внутриэкспертная проверка : Если у вас только один эксперт, попросите его через неделю вслепую перемаркировать случайные 10% данных. Если его оценка не совпадет с предыдущей, значит, ваша система критериев оценки нестабильна.

Вот фрагмент JSON-данных, полученных от эксперта, включая метки PASS и FAIL , а также подробное обоснование его действий:

{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    // Company description, audience and tone
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    // ... Color palette
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
        engineering with the ambitious goals of its elite athletic audience.
        Relevance: Leverages 'kinetic' to expertly link the brand to physical
        energy. Audience appeal: 'Unlock your potential' resonates perfectly
        with competitive runners. Tone consistency: Nails the required
        aggressive, high-performance marks."
    },
    // ... Human evals for colorBrandFit and mottoToxicity:
  }
}

Достичь и измерить уровень согласия экспертов

Ваша оценочная шкала служит инструкциями для модели, поэтому важно уделить время ее доработке. Если один дизайнер определяет «игривость» как «творческий язык» , а другой интерпретирует это как «яркие цвета» , ваша модель оценки также будет противоречивой. Вы должны уточнить свою оценочную шкалу, чтобы устранить эти двусмысленности, прежде чем представлять ее судье. Высокая степень согласованности, известная как межэкспертная надежность или межэкспертное согласие , гарантирует, что ваша модель оценки предоставит надежные и высококачественные оценки.

Разногласия между экспертами — это полезные сигналы, указывающие на то, где ваша система оценки нуждается в доработке. Дорабатывайте её до тех пор, пока ваши эксперты не придут к согласию относительно того, что считается PASS , а что « FAIL .

Ваш судья не может быть более объективным, чем люди, которые его создали.

Основное соглашение

Один из способов измерения согласованности мнений между людьми, который мы также использовали для оценки согласованности мнений экспертов в нашем базовом инструменте оценки , — это процентное соотношение частоты совпадения мнений наших экспертов.

// total = all test cases
// aligned = test cases where human1Eval.label === human2Eval.label
// (for example PASS and PASS)
const alignment = (aligned / total) * 100;

Соглашение, выходящее за рамки случайности: Каппа

Базовый процент согласия довольно прост, но может вводить в заблуждение. Представьте себе набор данных, в котором половина PASS , а половина — FAIL . Если два эксперта подбросят монету, они все равно сойдутся во мнениях в 50% случаев исключительно благодаря удаче. Это называется « нижним пределом удачи» .

Для точного расчета степени согласованности используйте статистические показатели, измеряющие надежность, выходящую за рамки чистой случайности:

Коэффициент Каппа Коэна для двух производителей этикеток.
Коэффициент Каппа Флейсса для трех и более этикетировщиков.
Тест : Стремитесь к значению коэффициента Каппа не менее 0.61 , что является стандартом существенного согласия. Значение 0 означает не лучше, чем случайное угадывание, а 1.0 — идеальное согласие.
Исправление : Если ваш коэффициент Каппа меньше 0.61 , значит, ваша оценочная шкала слишком расплывчата. Сгруппируйте примеры, по которым мнения ваших экспертов разошлись, проанализируйте их обоснования, обновите оценочную шкалу, чтобы она охватывала эти конкретные крайние случаи, и повторяйте, пока не достигнете 0.61 . Переходите к следующему шагу только после того, как мнения ваших экспертов будут согласованы.

Показатель Каппа	Действие
Менее `0.60` : Плохо	Проведите итеративный анализ и выясните, почему эксперты видят вещи по-разному. Ваша критерий оценки может быть слишком расплывчатым, поэтому уточните его.
`0.61` – `0.80` : Хорошо	Ваш базовый уровень надёжен. Продолжайте работу, используя данную рубрику.
`0.81` - `1.00` Почти идеально	Почти слишком хорошо, чтобы быть правдой. Проверьте, не слишком ли проста задача или эксперты чрезмерно упрощают её.

Сверните метки экспертов

Если для разметки данных вы использовали трех или более экспертов, объедините их голоса в единую оценку большинства для каждого образца. Этот список станет вашей эталонной информацией.

Настройте судью

Как и в случае с базовым критерием оценки, вам необходимо настроить параметры модели и написать задание. Установите системные инструкции в соответствии со строгим экспертным подходом и поддерживайте температуру на уровне 0 для максимальной согласованности. В задании укажите точную рубрику, которую использовали ваши эксперты для оценки данных. Добавьте несколько примеров с экспертной маркировкой в качестве примеров с небольшим количеством заданий, чтобы показать критерию оценки, как именно следует рассуждать.

Выровняйте и проверьте судью.

После того как эксперты-люди придут к согласию, настанет время проверить, согласен ли с ним судья, имеющий степень магистра права.

В нашей базовой конфигурации мы рассматривали только точность (выравнивание по исходным данным). Но это число само по себе может вводить в заблуждение. Представьте, что 90% ваших тестовых данных — это PASS . Ленивый судья мог бы каждый раз выдавать результат PASS , получить 90% точности и при этом не заметить ни одного токсичного девиза.

Определите позитивный класс

Определите свой положительный класс. Ваш положительный класс, также называемый целевым состоянием или интересующим событием , — это конкретный результат, который вы пытаетесь обнаружить, измерить или отметить. Ваш конвейер оценки выступает в роли привратника: его основная цель — выявлять и блокировать некорректные результаты.

Если предположить, что ThemeBuilder в целом хорошо генерирует слоганы и цветовые палитры, соответствующие бренду, и что токсичные девизы тоже встречаются редко, то ваш положительный балл по всем критериям оценки — FAIL .

С учетом этого:

Ложные срабатывания — это корректные результаты, ошибочно помеченные как FAIL .
Ложноотрицательные результаты — это FAIL , которые были пропущены.
Истинно положительные результаты — это правильно идентифицированные FAIL результаты.

Точность и полнота

Учитывая вашу положительную принадлежность, теперь вы можете использовать точность и полноту, которые являются более совершенными показателями, чем простое выравнивание:

Точность : когда судья магистерской программы говорит FAIL , как часто это было правильно? Например: когда судья пометил девиз как токсичный, как часто это было действительно правильно?
Вспомним : когда человек говорит FAIL , как часто судья магистратуры это замечал? Например: из всех действительно токсичных результатов и из всех действительно не соответствующих бренду лозунгов и цветовых решений, сколько раз судья это заметил?

Поймите цену ошибок + Установите целевые показатели.

Задайте себе вопрос: какая ошибка хуже для вашей заявки?

Токсичность : Токсичность — это вопрос безопасности. Мы хотим выявить каждый токсичный вариант (минимизировать ложноотрицательные результаты), даже если это означает, что наш эксперт иногда бывает слишком строг и отмечает безопасный вариант. Отметка безопасного варианта (ложноположительный результат) означает небольшую задержку или проверку человеком. Поэтому мы стремимся к 100% полноте . Точность может быть ниже.
Соответствие бренду : Нам нужен баланс. И отказ от неудачных вариантов дизайна, и отбраковка удачных одинаково дорого обходятся. Поэтому нам нужны высокие показатели точности и полноты.

Распознавание образов для точности и полноты — Автор: Walber - CC BY-SA 4.0

F1-балл

При увеличении полноты информации точность часто снижается. В случае с токсичными веществами это не проблема, поскольку вас интересует только полнота информации.

Для соответствия бренду важны как полнота, так и точность. Чтобы сбалансировать эту важность, можно использовать новый показатель: _F1 . Показатель _F1 объединяет точность и полноту в единый, сбалансированный показатель.

Выравнивание по осям

Проведите проверку с помощью вашего алгоритма на размеченном экспертами наборе данных и рассчитайте точность, прецизионность, полноту и _F1 -меру для каждого из ваших критериев. Оцените, достигаете ли вы поставленных целей.

В противном случае, сгруппируйте случаи неудач и ознакомьтесь с обоснованиями LLM. Обновите инструкции по системе судейства и критерии оценки, чтобы устранить пробелы, пока показатели не достигнут целевых значений.

Как только ваш судья достигнет ваших целей, ваш судья будет действовать в соответствии с ними.

Окончательная проверка

Теперь мы проверяем работоспособность нашего судьи, используя те же самые шаги, что и при базовой настройке судьи, но применяем ваши новые расширенные метрики:

Стресс-тест с использованием бутстреппинга : случайным образом перевыберите данные из набора данных с замещением в течение 10 итераций. Вычислите дисперсию показателей точности, полноты и _F1- меры по всем этим запускам, чтобы математически доказать, что ваши высокие результаты не являются просто случайностью.
Проверка самосогласованности : Пропустите одни и те же входные данные через систему проверки несколько раз, чтобы убедиться в 100% стабильности ее результатов. Нам нужна нулевая вариативность во всех итерациях.
Проведите финальный тест для судьи : протестируйте его на контрольном наборе из 15-20 новых, размеченных экспертами образцов, которые он никогда раньше не видел. Рассчитайте коэффициент Каппа Коэна, точность, полноту и _F1 -меру на этом скрытом наборе. Если эти показатели останутся близкими, это докажет, что ваш судья не переобучился на данных выравнивания и готов к обобщению на реальный мир!

Переназначить судью

Поздравляем с завершением работы! Вы создали высоконадежный конвейер оценки.

Не забывайте перенастраивать свой судья всякий раз, когда обновляете базовую LLM-систему, на которую он опирается, или когда набор функций вашего приложения кардинально меняется.

Оценка результатов выполнения

Заключение