kkBill's Blog

Harness Engineering 系列文章以 Agent Harness Engineering: A Survey 为基础进行整理。 Agent = Model + Harness 学术界对 LLM-based Agent 的研究，很大程度上一直是对模型本身的研究。研究主要聚焦于模型能做什么：它是否能跨多步规划、可靠的调用工具、检索并压缩相关记忆，或与其他智能体协调等。其隐含假设是，智能体能力主要取决于模型能力——只要有足够强大的模型和足够好的提示词，就能产生足够可靠的输出。然而，最新的研究挑战了”仅靠更好的模型就能产生更可靠的智能体”这一假设。三项最新的研究确定了这一点： Bölük (2026) 仅修改了编辑工具的格式和工具 harness，未对模型做任何改动，就在15个模型上实现了编码基准测试高达10倍的提升。 LangChain (2026) 仅通过系统提示词重构、中间件上下文注入和自验证钩子，就将 GPT-5.2-Codex 智能体在 Terminal-Bench 2.0 上的表现从 52.8% 提升至 66.5%——13.7个百分点的提升完全来自基础设施层面的改动。 Meta-Harness (2026) 通过 automated harness 优化，在 Terminal-Bench-2 上达到 76.4%，超越了所有手工设计的方法，且未修改任何模型权重。以上每种情况，变量都是 harness（即控制上下文构建、工具交互、编排、反馈和执行约束的基础设施层），而模型保持不变。仅靠 harness 优化，就足以实现大幅性能提升，这种模式并非偶然：harness，而非模型本身，是驱动可靠性的关键因素。论文将这一模式称为“binding-constraint thesis(约束绑定论)”，即对于长程任务的评估，基准测试的方差可能由 harness 和模型共同驱动。本文以此论题作为后续论述的框架。 Agent 系统的演进 ReAct 时代(2022–2023)。ReAct 将 observe-think-act loop 确立为一种基础原语。早期系统的基础设施极为精简：一个 while 循环、一个提示模板和一个小型的工具分发表。AutoGPT 和 BabyAGI 展示了通过任务队列、记忆和工具调度来包装语言模型调用以实现完全自主运行的雄心，同时也暴露出执行失控、上下文膨胀、状态丢失等问题。这些并非单纯的提示问题，而是基础设施问题。工具集成与多智能体协调(2023–2024)。Gorilla、ToolLLM 和 Toolformer 的研究表明，工具使用能力可以通过学习或引导产生；CAMEL、ChatDev、MetaGPT 和 Mixture-of-Agents 引入了多智能体协调模式，涵盖角色扮演对话、软件开发组织架构以及分层智能体聚合等多种形式；随着 SWE-bench、AgentBench、WebArena 和 GAIA 的推出，evaluation infrastructure（评估基础设施）日趋成熟；协议标准化则以 Anthropic 的 MCP 和 Google 的 A2A 为起点。 ...

论文: Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework 导读：这篇综述对现有的记忆框架进行了总结，相比于 Memory in the Age of AI Agents 和 Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey，这篇综述篇幅较为简短，覆盖的主题也相对较少——即重点专注于对记忆框架的整理。我觉得这篇文章对新手更加友好，不会一下子引入过多的概念。对于有一定经验的 Agent Memory 从业者而言，这篇文章也是一份不错的复习资料。 1 引言智能体能够自主运行、适应多样化环境，并支持针对用户需求的个性化交互。支撑这种智能行为的关键能力之一是记忆机制。如图1所示，通过维护并利用过往交互中的相关信息，记忆机制使智能体能够超越原始的长上下文提示（naive long-context prompting）。为智能体配备记忆机制后，它们能够随时间积累经验、保持上下文知识，并做出更明智的决策——类似于人类依靠记忆从过往经验中学习并指导未来的行动。近年来，出现越来越多的记忆方法，以增强智能体在跨交互场景中保留、组织和利用历史信息的能力。这些方法旨在使智能体超越无状态推理（stateless reasoning，不依赖持久化记忆，每次推理独立进行），转而支持长期规划、个性化和自适应决策。表1总结了十种具有代表性的智能体记忆方法，按照四个关键维度进行分类：底层存储结构、信息提取机制、记忆管理策略和检索方法。本文提出一个统一的模块化框架，该框架将记忆机制分解为四个阶段，包括信息提取（Information Extraction）、记忆管理（Memory Management）、记忆存储（Memory Storage）和信息检索（Information Retrieval）。在此框架下，我们在两个典型的长期对话基准测试 LoCoMo 和 LongMemEval 上进行评估。 2 预备知识本节介绍现有记忆方法中的一些重要概念和典型工作流，并讨论 RAG 与记忆之间的关系。 2.1 LLM 相关概念 LLM Prompting ...