AI 智能体 · 代码生成 · 大模型推理

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

这篇综述提出:代码不是智能体生成的产物,而是它运行其上的可执行底座,并用「接口—机制—多智能体扩展」三层把 40 多个系统串成一张图,末尾列出七个开放问题。

Code as Agent Harness:把代码重新定义为 AI 智能体的运行时

快速答案

这篇综述主张:在现代 AI 智能体系统里,代码不是输出,而是智能体行动所凭借的运行时介质。作者把整个领域拆成三层:harness 的接口(用于推理、行动、环境建模的代码)、harness 的机制(规划、记忆、工具使用、控制回路),以及向多智能体协作的扩展(在共享代码上协调)。文中用两张表分别列出约 20 个代码推理系统和约 20 个代码行动系统,梳理五大应用领域,最后落在七个开放问题。这是一篇由伊利诺伊大学厄巴纳-香槟分校牵头的大团队完成的立场兼分类论文,不是新模型。

唯一值得带走的观点

真正的贡献是这次重新定义:别再把大模型写的代码当成「生成的产物」,而要当成智能体推理、行动、环境建模、执行式验证所依赖的运行底座。作者靠三个属性说明代码为何独特地适合这个角色。代码是可执行的,于是智能体的意图能变成「跑一遍就能验证」的结果。代码是可检视的,中间状态是看得见的,而不是藏在模型权重里。代码是有状态的,能跨步骤持续存在,给长程任务一个存放工作记忆的地方。多数智能体综述在盘点提示词和工具,而这篇押的是:真正耐用的抽象是「代码即底座」这个视角,其余都是实现细节。

三层分类

第一层——Harness 接口(第 2 节)。 代码是智能体与世界之间的连接组织,分三路。用于推理的代码把思考外化成可运行的程序——程序委托计算(PoT/PAL 一脉)、形式化验证(定理证明式核查)、迭代式代码接地推理。用于行动的代码通过技能选择、策略生成,以及不断累积技能的终身智能体(Voyager 一脉)把意图变成动作。用于环境的代码则覆盖结构化状态表示、执行轨迹、评测环境与可验证构造。

第二层——Harness 机制(第 3 节)。 是什么让一个代码中心的智能体在长程上活下去。规划涵盖线性分解、结构接地、基于搜索、基于编排四类。记忆分成六种——工作、语义、经验、长期、多智能体、上下文压缩。工具使用归为面向函数、环境交互、验证驱动、工作流编排四类。控制坐在最上层,即「规划—执行—验证」回路加上自适应的 harness 工程。

第三层——扩展 Harness(第 4 节)。 在共享代码上做多智能体协作:按角色做功能分工、整合执行反馈、同步共享状态、收敛机制。共享代码库成了协调底座——多个智能体读写并对齐的地方。

关键结果

这是综述,所以「结果」是覆盖面与结构,而非基准分数:

  • 三层,端到端打通:接口、机制、多智能体扩展,被呈现为一个连贯的栈,而非彼此孤立的话题。
  • 约 20 + 约 20 个系统入表:表 1 列出约 20 个代表性代码推理系统(PoT、PAL、ReProver 等);表 2 列出约 20 个代码行动系统(SayCan、Code-as-Policies、Voyager 等)。
  • 五大应用领域:编程辅助、GUI/OS 自动化、科学发现、个性化、具身控制。
  • 代码的三大定义属性:可执行、可检视、有状态——全文的框架支点。
  • 第 5.2 节七个开放问题,横跨评测、验证、安全与大规模协调。
  • 文献覆盖至 2026 年,作者共 43 位,分布于 UIUC、Meta 与斯坦福。

为什么现在值得读

2026 年的智能体研究正碎裂成各家框架的黑话,一张干净的概念地图本身就有价值。这里真正有用的一步,是把智能体发起的代码产物(智能体写出来的东西)和系统提供的基础设施(智能体运行其内的 harness)区分开——这条线多数实务讨论都模糊带过,而它点明了「给智能体一个代码解释器」和「搭一套智能体 harness」是两个不同的工程问题。如果你正在设计智能体系统,纠结规划、记忆、工具抽象怎么分,第二层的拆解就是一份现成清单。

局限与存疑

诚实的提醒是:这是综述,因此也继承综述的弱点——没有新方法、没有基准、没有能复现的实证结论,而分类法的好坏完全取决于领域是否真沿着它划的缝隙整齐裂开。「可执行/可检视/有状态」这套三属性框架干净,却不可证伪——大量智能体行为一条都不沾。「代码即底座」的论点也有一部分是改名:被归入「用于推理的代码」或「用于行动的代码」的不少内容,早就以工具使用或程序合成的名义被研究过,这篇的价值在于组织,而非新机制。七个开放问题是被点名,而非被解决。把它当成一张地图和一份阅读清单,而不是「代码中心视角获胜」的证据。

常见问题

Code as Agent Harness 的核心论点是什么?

代码应被理解为智能体推理、行动、协调所凭借的可执行运行时底座,而不仅是模型生成的文本。论文用三个属性支撑:代码可执行、可检视、有状态。

Code as Agent Harness 的分类是怎样的?

三层:harness 接口(用于推理、行动、环境的代码)、harness 机制(规划、记忆、工具使用、控制回路)、向多智能体系统的扩展(在共享代码上协调)。

Code as Agent Harness 提出了新模型或基准吗?

没有。它是综述兼立场论文。它列表梳理了约 40 个代表性系统、五大应用领域和七个开放问题,但不提出任何新模型、训练方法或基准。

Code as Agent Harness 是谁写的?

由伊利诺伊大学厄巴纳-香槟分校牵头、共 43 位作者的团队完成,部分作者隶属 Meta 与斯坦福,文献覆盖至 2026 年的代码中心智能体研究。

谁适合读 Code as Agent Harness?

任何想为规划、记忆、工具抽象建立统一术语,或想要一份代码推理与代码行动系统结构化阅读清单的智能体系统设计者。若你需要具体方法或实证结果,可略过。

一句话:代码是智能体的运行时,而非它的输出——这篇综述就是这一视角的地图。阅读 arXiv 原文