Agent Harness 田野指南:50 个 loop、工具系统,以及 LingTai 应该学什么

techdevlog

Living field guide

这是一篇持续更新的田野指南,浓缩自对 50 个当前 agent harness 的 source-grounded 调研。生态变化很快:harness 会改版、消失、合并,也会不断给 LingTai 新的启发,所以这篇放在 blog 里,后续可以继续增补。

多数 agent 讨论都在谈“模型”。这篇文章谈的是模型外面那层东西:harness

一个 harness 决定上下文如何组装,工具如何声明,工具调用如何审批,副作用如何提交,trace 如何记录,中断后如何恢复,以及人类如何判断 agent 是在思考、卡住,还是正在行动。模型当然重要,但真正决定 agent 能不能可靠干活的,往往是 harness。

对 LingTai 来说,关键比较不是“谁的 ReAct loop 更聪明”。LingTai 的形态本来就不同:它是一个 always-on agent network,有持久记忆、mail/chat wakeup、avatars、daemons、MCP/addon ownership 和生命周期控制。更有价值的问题是:这样一个网络运行时,应该从最好的单 agent harness、框架 harness、沙箱底座里借鉴什么?

一句话结论

这 50 个系统大致聚成五种主流方向:

  1. Coding workbench 把工具使用做得可见:shell、文件编辑、patch、审批、可恢复会话。
  2. IDE agent 靠贴近代码取胜,把上下文和审批摩擦降到最低。
  3. 图/工作流框架 用类型化状态、checkpoint 和边,把长计划变得更确定。
  4. SDK/框架型 harness 正在收敛到 strict tools、typed outputs、tracing、evals、handoffs。
  5. 沙箱底座 提醒我们:执行策略不是实现细节,而是 harness 本身的一部分。

LingTai 的差异化仍然很强:它不只是一个 loop,而是一个网络运行时。但这次调研也给出了很具体的改进方向。

给 LingTai 的改进建议

P0 — Tool-result commit ledger

让每一次工具调用显式经过这些状态:proposed → approved → executing → side-effect committed → model-visible → durable-log-visible。这会让 LingTai 比常见 SDK 更强,也能减少 orphan tool call、retry、heal 时的歧义。

P0 — Daemon/process reattachment

给每个 daemon/backend 建立 run-artifact 契约:parent PID、child PID、workspace、transcript、report path、last heartbeat、recovery action。重启后 LingTai 应该能 reattach、finalize 或解释状态,而不是留下“好像还在跑/不知道在哪”的任务。

P1 — Span-style observability

借鉴现代 agent SDK 越来越常见的 tracing 形态:turn → model call → tool calls → MCP calls → daemon tasks。在 portal/TUI 里渲染出来,让人能看懂 agent 为什么慢、为什么卡、卡在哪。

P1 — Graph/checkpoint option

保留 LingTai 的 always-on loop,但为需要确定性多步状态的 workflow 增加 graph/checkpoint primitive。LangGraph 式 checkpoint 不是 LingTai 的替代品,而是 LingTai 内部可以提供的一种模式。

P1 — Stricter tool schema ergonomics

把工具元数据做成清楚的数据:参数 schema、副作用类别、timeout、审批策略、retry 策略、错误 formatter。LingTai 拥有的工具越多,工具契约越应该可见。

P1 — Sandbox policy objects

让每个工具/backend 都有一等 sandbox/approval policy。Claude Code、Codex、SWE-agent、E2B/Daytona 都说明:文件系统、shell、网络、审批策略会直接塑造 agent 行为。

P1 — Cheaper handoff primitive

LingTai 的 avatar 是持久、强力的。但有时我们也需要更便宜的 in-process handoff/router primitive:当只需要一次专门路由、不需要持久身份时,别每次都生成一个长期 agent。

Taxonomy:如何读这个领域

50 个 harness 索引

#Harness形态证据给 LingTai 的启发
1Claude CodeCoding CLI / closed agent闭源/公开证据把 agent loop 当成产品界面:审批、压缩、恢复、工具语义都应该可见,而不是藏在提示词里。
2OpenAI Codex CLICoding CLI公开源码为主沙箱和审批模式应该是一等运行时策略,而不是提示词里的约定。
3OpenCodeCoding CLI公开源码为主多供应商终端 agent 需要清晰的会话状态,以及模型/工具抽象边界。
4OpenHandsAutonomous SWE platform公开源码为主持久事件流加工作区沙箱,让长时间软件工程任务可检查、可恢复。
5AiderCoding CLI公开源码为主Git 原生编辑让 coding agent 更可控:每个改动都是带上下文的 diff。
6ContinueIDE/code assistant platform公开源码为主IDE 原生 agent 的优势来自显式、可由用户编辑的上下文组装。
7ClineIDE coding agent公开源码为主当每次工具调用都对用户可见时,简单的 plan-act-observe loop 也能很强。
8Roo CodeIDE coding agent公开源码为主mode 是表达专门行为的低成本方式,不一定每次都要生成持久 agent。
9GooseLocal agent runtime公开源码为主基于 extension 的本地运行时让工具可组合,同时把执行留在用户身边。
10OpenClawAutomation/agent-loop framework公开源码为主显式记录 agent loop 本身就是产品能力;用户需要知道到底什么在循环。
11OpenHarnessLong-running autonomous harness公开源码为主长期自主运行需要 run artifact,而不只是聊天记录。
12Hermes AgentSelf-improving agent公开源码为主自我改进需要记忆和技能边界,避免能力演化变成意外漂移。
13PiMinimal coding harness公开源码为主极简 harness 暴露了不可再缩的循环:组装上下文、调用模型、应用工具、重复。
14Oh My PiTerminal coding harness公开源码为主持久执行内核很有用,但必须由清晰的轮次/工具预算约束。
15harness-agentSmall/uncertain harness package公开来源不确定小包提供了有用的反例:叫做 harness 不等于真的拥有 agent loop。
16LangGraphGraph agent framework公开源码为主带 checkpoint 的图是确定性多步 agent workflow 的最强模式。
17LangChain AgentsAgent framework公开源码为主工具 schema、callback 和中间步骤应该能从框架边界被检查。
18CrewAIMulti-agent framework公开源码为主角色化团队让委派更易读,但需要持久责任链,避免变成角色扮演。
19AutoGenMulti-agent framework公开源码为主用对话做编排很灵活;真正困难的是终止条件和交接规则。
20Semantic Kernel AgentsEnterprise agent framework公开源码为主企业级 harness 需要类型化函数、planner 和普通用户可信任的策略界面。
21LlamaIndex AgentsRAG/tool agent framework公开源码为主RAG 中心 agent 说明检索和工具调用应该共享同一套可追踪上下文契约。
22PydanticAITyped agent framework公开源码为主类型化输出和依赖能减少模型/框架边界的歧义。
23AgnoAgent/team framework公开源码为主团队、记忆和工具应该先作为数据配置,再作为执行轨迹追踪。
24smolagentsLightweight code/tool agents公开源码为主code-as-action 很强,但沙箱和 import 必须由设计约束。
25DSPy agentsPrompt/programming framework公开源码为主Agent 行为可以作为程序优化,而不只是手写 prompt。
26AutoGPT ForgeAutonomous agent platform公开源码为主自主 agent 平台首先需要能力注册表和预算,而不是更多 prompt。
27MetaGPTSoftware-company multi-agent公开源码为主结构化产物能让多 agent 协作少一点聊天,多一点可审查。
28CAMEL-AICommunicative multi-agent framework公开源码为主社会式 agent 模拟适合研究,但生产环境需要所有权和状态边界。
29Letta / MemGPTStateful memory agent server公开源码为主记忆必须是一等运行时对象,具有编辑、回忆和持久化语义。
30MastraTypeScript agent framework公开源码为主现代应用型 agent 框架把 agent、workflow、eval 和观测性当成同一套开发栈。
31VoltAgentTypeScript agent framework公开源码为主开发者友好的 dashboard 很重要,因为 agent 失败通常是读 trace 的问题。
32MotiaEvent-driven workflow framework公开源码为主事件驱动 workflow 是承载跨请求 agent step 的好底座。
33Haystack AgentsPipeline/RAG agent framework公开源码为主当检索、路由和工具调用相互作用时,pipeline 和 agent 应该收敛。
34SWE-agentSWE-bench coding harness公开源码为主Benchmark harness 证明了可复现 run directory 和环境规格的价值。
35mini-SWE-agentLightweight SWE harness公开源码为主小而显式的 loop 比巨型框架更容易 benchmark。
36DevinCommercial SWE agent闭源/公开证据闭源 agent 仍有产品启发:持久工作区、异步工作、人类交接。
37Factory DroidCommercial SWE agent闭源/公开证据商业 SWE agent 强调端到端任务所有权,而不是框架 API。
38Qodo PR-AgentCode review/change agent公开源码为主窄域 review agent 通过限制上下文、输出和仓库副作用取胜。
39Sweep AIIssue-to-PR agent公开源码为主issue-to-PR agent 需要在仓库现实偏离 issue 文本时清晰升级。
40MentatCommand-line coding agent公开源码为主对话加 patching 仍然是本地 coding agent 的可靠基线。
41Cursor AgentIDE-native commercial agent闭源/公开证据IDE 原生商业 agent 通过无摩擦上下文和编辑器内审批取胜。
42Windsurf / CascadeIDE-native commercial agent闭源/公开证据Cascade 类产品说明连续项目上下文比一次性 prompt 更重要。
43GitHub Copilot AgentIDE/GitHub coding agent闭源/公开证据GitHub 原生 agent 的优势是直接生活在 issue、branch、PR 所在之处。
44OpenAI Agents SDKSDK / AgentKit公开源码为主tracing、handoff、typed tools 正在成为 agent SDK 的默认契约。
45BeeAI FrameworkAgent framework公开源码为主新一代框架越来越把记忆、工具和观测性打包在一起,而不是当作附加件。
46ControlFlowWorkflow/agent framework公开源码为主带类型化结果的 task graph 让 agent 工作能组合进普通软件系统。
47PocketFlowMinimal workflow framework公开源码为主极简 node/action 抽象适合追求可教学性和可移植性。
48E2B / DaytonaSandbox substrate公开源码为主沙箱就是 harness 的一部分:文件系统、网络、进程、snapshot 策略都会塑造行为。
49SuperAGIAutonomous agent platform公开源码为主早期自主平台提醒我们:工具更多但状态语义不更严,只会变成混乱。
50BabyAGI / functionzTask-loop lineage公开源码为主最早的 task loop 仍藏在现代 agent 底下:创建任务、执行、重排优先级、记忆。

这对 LingTai 意味着什么

LingTai 不应该照抄某一个 harness。更有意思的方向是综合:

整个领域正在朝更严格的工具契约和 trace 契约演进。而 LingTai 已经拥有更稀有的一部分:agent 可以活着、睡眠、醒来、记忆、生成持久同伴,并通过 channel 协作。下一步,是让这套生命循环里的每一个环节,都像最好的 coding harness 对一个 patch 那样可检查、可恢复、可回放。

方法说明

这次底层调研覆盖 50 个系统,优先读源码;开源项目以公开仓库为主要证据。Claude Code、Devin、Cursor、Windsurf/Cascade、GitHub Copilot Agent 等闭源商业系统,因为内部 loop 不完全公开,均标为低置信度;它们被纳入主要是为了产品和界面层启发,而不是当作源码级断言。