隆重推出 AI Evals:不要猜测,要衡量

大语言模型的强大功能可能会诱使我们跳过测试,但评估是您自信发布应用的关键。

假设您正在为基于 Web 的主题构建工具制作原型。这是一个有趣的工具:在 Web 应用中,用户输入公司名称和说明、目标受众群体以及语气和氛围。前端会将此信息发送到您的服务器。您的服务器使用大语言模型 (LLM) 生成符合预期语气和氛围的创意口号,以及与品牌相符的无障碍调色板。它会以小型 JSON 对象的形式返回此数据。

我们将此应用称为 ThemeBuilder。

ThemeBuilder 输入和输出。
ThemeBuilder 显示了 Midnight Coffee 公司的示例主题。该应用会使用公司名称、说明、受众群体和语气来输出口号和调色板。

您选择一个基础 LLM,然后迭代提示。您公司的内部设计师喜欢这些调色板,并且口号听起来很吸引人。

现在,您有以下问题:

  1. 是否已准备好在生产环境中使用?您不知道应用的输出质量是否足够稳定。一些内部测试人员报告了调色板损坏或口号与品牌不符的问题。修复一个问题后,又出现了两个 bug。
  2. 我可以更换型号吗?您可能需要升级到同一 LLM 的最新版本以缩短延迟时间,或者从托管式服务切换到自托管模型以降低费用。您不知道这会改善还是恶化应用的输出,也无法测试回归。
  3. 是否可以安全运输?有人曾举报过一次有害输出,但您无法重现该输出。是偶然情况还是应该阻止发布?

您的团队因 LLM 的输出质量差异过大而停止发布。 如果没有测试,很难建立发布信心。

为什么选择猜测而不是测试?

首次使用 AI 构建内容时,您可能会只查看几个输出,觉得看起来没问题就继续操作。为什么您可能会依赖直觉,而不是依靠衡量指标和数据?

确定性算法的每个输入都有一个输出。概率算法针对每个输入都有多种可能的输出。

您之所以这样做,很可能是因为 LLM 是概率性的,而不是确定性的。这意味着,即使您提供相同的公司名称、说明、受众群体和语气,ThemeBuilder 也可能会输出不同的宣传口号和调色板。

对于什么是醒目的口号或符合品牌风格的调色板,没有唯一的正确答案。

LLM 的创意能力非常出色。但非确定性与工程的概念似乎格格不入。因此,您可能会得出结论,基于 LLM 的应用可能无法测试。

Evals 来助你脱困

在大语言模型领域,开发最佳实践仍然有效。我们可以也应该测试基于 LLM 的应用。我们只需要不同的技巧。 这些技术称为“评估”,简称“eval”。评估涉及新的工作流程,但您现有的测试专业知识可以直接用于构建出色的评估。

评估是针对 AI 功能的测试。这些测试有助于您创建关键反馈环:如果您构建了强大的评估流水线,基于 LLM 的功能将能很好地满足用户需求。这样,您的团队就可以放心地发布功能了。

如果您正在使用 LLM 进行构建,那么学习如何实现可靠的评估将是您最明智的时间投资。

现在,来了解评估!