Harness Engineering 07. Verification and Evaluation
1. Harness Evaluation as a Task-to-Feedback Lifecycle 首先,我们需要打破传统评估的固有认知,即评估分数应当被视为“Model-Harness 对”的属性,而不仅仅是模型本身的能力体现。这对应于本文贯穿始终的“绑定约束理论”,即任务执行的可靠性很大程度上取决于模型之外的 Harness 基础设施(Agent = Model + Harness)。因此,这要求在评估协议中,要么保持 Harness 不变,对比模型;要么保持模型不变,将不同的 Harness 配置作为显式的实验因子进行测试。 此外,Harness 评估与传统 LLM 评估也存在根本差异。传统 LLM 评估通常针对固定的输入,对输出进行评分(如 MMLU);Harness 评估衡量的则是一个执行集(Execution Episode,即 Agent 与环境交互的一个完整周期)——任务被锚定于某个环境中,智能体在其中与工具、状态进行多轮交互,评估者需要判断最终结果以及达成结果的路径(轨迹)。 为此,作者提出了一个核心概念,将 Harness 评估视为一个“从任务到反馈的生命周期(Task-to-Feedback Lifecycle)”。下图展示了 task-to-feedback lifecycle 的五个阶段。 作者引入生命周期视角的一个重要动机在于,评估基础设施的噪声可能被误当作模型的失败。 在复杂的智能体运行中,失败的原因可能多种多样,如工具损坏、上下文过时、沙箱未重置、测试用例不稳定或评估器本身出现偏差。 因此,评估不能仅仅给出一个最终分数,而必须将 Agent 行为转化为结构化的判断、失败归因和回归反馈。 task-to-feedback lifecycle 的五个阶段涵盖了从任务定义到系统改进的全过程,具体包括: 阶段 1:任务与基准锚定 (Task and Benchmark Grounding) 核心问题:评估什么? 内容:定义环境状态、可用工具、允许的操作、约束条件和成功准则。 阶段 2:执行前就绪验证 (Pre-execution Readiness Validation) 核心问题:环境设置准备好了吗? 内容:在运行前检查沙箱、依赖项、工具、权限策略和预算是否正确初始化,确保环境的公平性和可重复性。 阶段 3:受控执行与轨迹捕获 (Controlled Execution and Trace Capture) 核心问题:发生了什么? 内容:在可重复的条件下运行智能体,记录模型输出、工具调用、状态变化、错误、成本和延迟,将运行过程转化为可诊断的证据。 阶段 4:多级判断与失败归因 (Multi-level Judgement and Failure Attribution) 核心问题:为什么成功或失败? 内容:不仅看结果是否正确(Outcome),还看路径是否合规高效(Trajectory),并将失败具体归因到模型、工具接口或上下文管理等具体的 Harness 组件上。 阶段 5:持续回归与部署反馈 (Continuous Regression and Deployment Feedback) 核心问题:如何改进? 内容:将评估诊断结果转化为回归测试和工程反馈,驱动下一轮的 Harness 迭代和优化。 2. Stage 1 - Task and Benchmark Grounding 阶段 1 的核心任务是回答“到底在评估什么”这一基本问题。在 Harness Engineering 语境下,一个任务不仅仅是一段提示词,而必须包含以下要素: ...