Harness Engineering 01. Overview

Harness Engineering 系列文章以 Agent Harness Engineering: A Survey 为基础进行整理。 Agent = Model + Harness 学术界对 LLM-based Agent 的研究,很大程度上一直是对模型本身的研究。研究主要聚焦于模型能做什么:它是否能跨多步规划、可靠的调用工具、检索并压缩相关记忆,或与其他智能体协调等。其隐含假设是,智能体能力主要取决于模型能力——只要有足够强大的模型和足够好的提示词,就能产生足够可靠的输出。 然而,最新的研究挑战了”仅靠更好的模型就能产生更可靠的智能体”这一假设。三项最新的研究确定了这一点: Bölük (2026) 仅修改了编辑工具的格式和工具 harness,未对模型做任何改动,就在15个模型上实现了编码基准测试高达10倍的提升。 LangChain (2026) 仅通过系统提示词重构、中间件上下文注入和自验证钩子,就将 GPT-5.2-Codex 智能体在 Terminal-Bench 2.0 上的表现从 52.8% 提升至 66.5%——13.7个百分点的提升完全来自基础设施层面的改动。 Meta-Harness (2026) 通过 automated harness 优化,在 Terminal-Bench-2 上达到 76.4%,超越了所有手工设计的方法,且未修改任何模型权重。 以上每种情况,变量都是 harness(即控制上下文构建、工具交互、编排、反馈和执行约束的基础设施层),而模型保持不变。仅靠 harness 优化,就足以实现大幅性能提升,这种模式并非偶然:harness,而非模型本身,是驱动可靠性的关键因素。 论文将这一模式称为“binding-constraint thesis(约束绑定论)”,即对于长程任务的评估,基准测试的方差可能由 harness 和模型共同驱动。本文以此论题作为后续论述的框架。 Agent 系统的演进 ReAct 时代(2022–2023)。ReAct 将 observe-think-act loop 确立为一种基础原语。早期系统的基础设施极为精简:一个 while 循环、一个提示模板和一个小型的工具分发表。AutoGPT 和 BabyAGI 展示了通过任务队列、记忆和工具调度来包装语言模型调用以实现完全自主运行的雄心,同时也暴露出执行失控、上下文膨胀、状态丢失等问题。这些并非单纯的提示问题,而是基础设施问题。 工具集成与多智能体协调(2023–2024)。Gorilla、ToolLLM 和 Toolformer 的研究表明,工具使用能力可以通过学习或引导产生;CAMEL、ChatDev、MetaGPT 和 Mixture-of-Agents 引入了多智能体协调模式,涵盖角色扮演对话、软件开发组织架构以及分层智能体聚合等多种形式;随着 SWE-bench、AgentBench、WebArena 和 GAIA 的推出,evaluation infrastructure(评估基础设施)日趋成熟;协议标准化则以 Anthropic 的 MCP 和 Google 的 A2A 为起点。 ...

May 24, 2026 · kkBill

Memory in the LLM Era

论文: Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework 导读:这篇综述对现有的记忆框架进行了总结,相比于 Memory in the Age of AI Agents 和 Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey,这篇综述篇幅较为简短,覆盖的主题也相对较少——即重点专注于对记忆框架的整理。我觉得这篇文章对新手更加友好,不会一下子引入过多的概念。对于有一定经验的 Agent Memory 从业者而言,这篇文章也是一份不错的复习资料。 1 引言 智能体能够自主运行、适应多样化环境,并支持针对用户需求的个性化交互。支撑这种智能行为的关键能力之一是记忆机制。如图1所示,通过维护并利用过往交互中的相关信息,记忆机制使智能体能够超越原始的长上下文提示(naive long-context prompting)。为智能体配备记忆机制后,它们能够随时间积累经验、保持上下文知识,并做出更明智的决策——类似于人类依靠记忆从过往经验中学习并指导未来的行动。 近年来,出现越来越多的记忆方法,以增强智能体在跨交互场景中保留、组织和利用历史信息的能力。这些方法旨在使智能体超越无状态推理(stateless reasoning,不依赖持久化记忆,每次推理独立进行),转而支持长期规划、个性化和自适应决策。表1总结了十种具有代表性的智能体记忆方法,按照四个关键维度进行分类:底层存储结构、信息提取机制、记忆管理策略和检索方法。 本文提出一个统一的模块化框架,该框架将记忆机制分解为四个阶段,包括 信息提取(Information Extraction)、记忆管理(Memory Management)、记忆存储(Memory Storage)和信息检索(Information Retrieval)。在此框架下,我们在两个典型的长期对话基准测试 LoCoMo 和 LongMemEval 上进行评估。 2 预备知识 本节介绍现有记忆方法中的一些重要概念和典型工作流,并讨论 RAG 与记忆之间的关系。 2.1 LLM 相关概念 LLM Prompting ...

May 8, 2026 · kkBill