Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

隆重推出 AI Evals：不要猜测，要衡量

大语言模型的强大功能可能会诱使我们跳过测试，但评估是您自信发布应用的关键。

Maud Nalpas

假设您正在为基于 Web 的主题构建工具制作原型。这是一个有趣的工具：在 Web 应用中，用户输入公司名称和说明、目标受众群体以及语气和氛围。前端会将此信息发送到您的服务器。您的服务器使用大语言模型 (LLM) 生成符合预期语气和氛围的创意口号，以及与品牌相符的无障碍调色板。它会以小型 JSON 对象的形式返回此数据。

我们将此应用称为 ThemeBuilder。

ThemeBuilder 输入和输出。 — ThemeBuilder 显示了 Midnight Coffee 公司的示例主题。该应用会使用公司名称、说明、受众群体和语气来输出口号和调色板。

您选择一个基础 LLM，然后迭代提示。您公司的内部设计师喜欢这些调色板，并且口号听起来很吸引人。

现在，您有以下问题：

是否已准备好在生产环境中使用？您不知道应用的输出质量是否足够稳定。一些内部测试人员报告了调色板损坏或口号与品牌不符的问题。修复一个问题后，又出现了两个 bug。
我可以更换型号吗？您可能需要升级到同一 LLM 的最新版本以缩短延迟时间，或者从托管式服务切换到自托管模型以降低费用。您不知道这会改善还是恶化应用的输出，也无法测试回归。
是否可以安全运输？有人曾举报过一次有害输出，但您无法重现该输出。是偶然情况还是应该阻止发布？

您的团队因 LLM 的输出质量差异过大而停止发布。如果没有测试，很难建立发布信心。