
Anthropic 给 Opus 4.5 个层提醒,让它构建个分娩 Web 利用。它失败了。不是因为模子不好。而是因为它试图次完成整个事情(承认吧,你也会这么作念),在崎岖文窗口中留住了半完了的,过早地文告胜利。他们设备了脚手架,添加了进程追踪和增量责任流:同个模子动手录用了。他们把这篇著作定名为"针对经久运行 Agent 的有 Harness"。
TL;DR: Harness > 模子这个说法正确但不竣工。让它的机制起作用的是渐进式线路(progressive disclosure):只在模子需要时展示它需要的内容。一样的模子,仅通过切换到好的脚手架,CORE-Bench 得分就跃升了 36 分。我经过 8 个月和 5 个分娩利用后的框架:契约胜于直观,敛迹胜于器用,每个季度简化次。附可径直复制的模板。
这个词随后处不在。OpenAI 发布了 "Harness 工程"。LangChain 只修改了 harness,就把他们的编码代理从 52.8 普及到了 66.5。Mitchell Hashimoto 和 Martin Fowler 也写了斟酌著作。SWE-bench Pro 在大鸿沟上阐发了这点:一样的模子,不同的脚手架,不同的成果。
我看了看我的 CLAUDE.md、我的提醒契约(prompt contracts)、我的 CLI 封装,意志到这恰是我在 8 个月里在 5 个分娩利用中直在作念的事情。我只是莫得个词来定名它。Harness。等于这个。
是以是的,Harness 比模子热切。这部分仍是详情了。
但知谈"harness 很热切"就像知谈"健康饮食和磨练"。要是你不简直去作念,这等于毫用处的,而且这将会催生出通盘过度复杂的框架产业,这些框架都偏离了。
我花了八个月时分,把书里提到的每个乖僻都犯了遍。这些是存活下来的造就。
1、每个东谈主都会犯的3个乖僻
我知谈,因为我三个都犯了。
乖僻 1:堆砌器用而不是编写契约
当我动手构建 OpenClaw(我的多模子 AI agent)时,我贯穿了 12 个 MCP 器用。搜索、操心、信用查验、RSS 监控、Discord 告警、cron 现象、用户查询、备份考证。嗅觉很。很业。
Agent 花在决定调用哪个器用上的时分,比料理履行问题的时分还多。
对于个浮浅的"今天早上有什么需要我细心的吗?"查询,它会按规矩触发 4-5 个器用调用,有时会以稍有不同的参数两次调用同个端点,因为描写疲塌到重迭。有天早上,它调用了 check_users,然后调用了 check_credits,然后又用不同的过滤器调用了 check_users,然后给我个在段落之间互相矛盾的回答。
我删掉了 8 个器用。将 12 个替换为 4 个,这 4 个器用的精准描写被写成契约。不是"查询信用数据",而是"查找刻下信用余额偏离预期过 10 的用户,用偏离幅度璀璨荒谬,并按严重程度排序。"底层的代码疏导。模子疏导。唯更正的是描写。
器用调用减少了 40。输出不再鬻矛誉盾。器用描写直都是问题场所。
我围绕这个原则构建了竣工的提醒契约框架,这成为我通盘责任过程中影响大的单更正。你不再与 agent 分享代码。你分享的是意图、敛迹和预期行径。描写等于契约。
乖僻 2:在浮浅案可行时选拔复杂
47,000 个 token。这是 Phil Schmid 测量的以规范式集成 6 个 MCP 处事器的资本。只是是 schema 界说。在你的 agent 以致动手念念考你的履行问题之前,它就要咀嚼掉四万七千个 token 的 JSON 器用描写。
Manus 通过 CLI 封装来清晰 MCP 器用料理了这个问题。疏导的。粗俗 400 个 token。
我在 2025 年底构建我的个 MCP 处事器时,并不知谈这些数字。每个东谈主都在构建它们。公约是新的,很闪亮,嗅觉像是正确的空洞。是以我也构建了个。自界说 OAuth 过程、token 刷新处理、多源数据聚,应有尽有。
十六次提交。四个小时调试个会话半途过时的 auth token。我在坎昆的货仓房间里,离泳池惟一十米远,却在看日记颐养而不是游水。终发布了,面前运行得很好。但自后我也为其他处事构建了作念一样事情的 CLI。CLI 需要个 bash 剧本和个 JSON 输出。次就见效了。
很酷。
Vercel 在大鸿沟上进行了一样的实验。从的器用库动手:搜索、代码、文献、API 器用。你想要的每个。Agents 稠浊了,作念了冗余调用,走了不要的设施。他们削减到骨子,给 agent 径直的 bash 旁观权限。见着力提到 ,速率提了 3.5 倍。
我写了对于为什么对于大大都 agent 成立来说 CLI 比 MCP 好的著作,反应很狂。蓝本好多构建者都有一样的怀疑,但在通盘生态系统都在动 MCP 四肢畴过去,说出来嗅觉很奇怪。
MCP 有它的位置。但先伸手选拔复杂料理案的本能潮州钢绞线规格,恰是 harness 在变得有效之前变得痴肥的原因。
乖僻 3:从不删除任何东西
这个问题很肆意,因为它嗅觉是不负包袱的。你构建了个能用的东西。它在分娩环境中。删除它嗅觉就像从速公路上移除护栏。
然而模子在校正。而你的 harness 不知谈这点。
上个月我从 OpenClaw 中删除了通盘操心子系统。外部崎岖文检索、embedding 查找、对话历史注入。它花了两周时分构建,四个月时分保重。我在个星期四删除了它。到星期五,数字告诉了故事:
每次查询的反馈蔓延下跌了 2.3 秒。Agent 住手了幻觉"记着的"崎岖文——这些履行上是两个月前的退步数据。用户对支合手互动的稳固度提了,因为 agent 回复的是东谈主们履行说的话,而不是操心系统以为斟酌的内容。
模子(Kimi K2.5)仍是满盈好地保重会话内的崎岖文,外部操心层履行上让事情变得糟。我正在为裁减我的产物能的基础设施付费。
Manus,可能是面前在分娩环境中经过充分实战测试的自主 agent,以粗重的式五次学到了这点。他们在六个月内重写了通盘 harness 五次。不是因为模子更正了。因为每次重写都剥离了复杂。
他们的驱动版块使用了个 todo.md 文献,agent 在每步都重写它以追踪进程。粗俗 30 的整个 token 用于新该文献。他们将其替换为个子代理规画器(sub-agent planner),该规画器复返个结构化对象,仅在需要时注入它。
他们将器用从几十个动态 MCP schema 削减到少于 20 个原子函数:bash、文献系统、代码施行。MCP 器用以致不在崎岖文窗口中了。它们通过 CLI 清晰,锚索agent 通过 bash 调用它们。
Peak Ji,他们的科学,探口而出地说:"跟着模子变强,咱们不应该构建多的脚手架,咱们应该闪开模子的路。"
Anthropic 说了一样的话:"跟着模子才能提,你的模子也曾需要的器用面前可能正在放肆它们。"
天津市瑞通预应力钢绞线有限公司要是你的 harness 在三个月内莫得随便,它可能仍是太大了。
2、让这切起作用的个步地
整个三个乖僻都有疏导的压根原因:过早、过万古分地给模子提供过多信息。当它需要 4 个器用时给了 12 个。当 bash 剧本就行时给了 MCP 支拨。操心系统注入了退步的崎岖文,而模子仍是越了它。
料理案有个名字。渐进式线路(progressive disclosure)。只在模子需要时向它展示它需要的内容。荫藏其他整个东西。
Cursor 作念得很激进。他们的动态崎岖文发现系统在职何给定设施过滤掉粗俗 47 的可用 token。不是巧合的,而是通过架构完了的。模子只看到与这个特定任务、这个特定工夫斟酌的内容。
Claude Code 通过手段(skills)来完了这点。你创建个 skills/ 目次,Claude 在会话动手时只看得手段称号和节略描写。惟一当它决定需要时才加载竣工内容。LLM 的懒加载。
Manus 通过分层操作空间(layered action space)来完了这点。 1 层:20 个原子器用,恒久可见。 2 层:通过 bash 调用的沙盒实用要领,长久不会欺侮崎岖文。 3 层:agent 为复杂的链编写我方的剧本,而不是进行三次单的 LLM 走动。
基准测试的影响是简直的。一样的模子,Claude Opus 4.5,在使用通用脚手架的情况下在 CORE-Bench 上得分为 42。使用 Claude Code 四肢 harness,得分为 78。这不单是是渐进式线路,Claude Code 还带来了好的器用料理、环境成立和压缩。但运行测试的运筹帷幄东谈主员探口而出:脚手架简直使分数翻倍。模子莫得更正。
底下的三个支合手是我在实践中如何利用渐进式线路的法。器用、成就、保重。
3、框架:契约、敛迹、清算
不是 47 层架构图。不是有 41 个手段界说和 11 个子代理的 GitHub 仓库。三件履行接受住分娩环境进修的东西。
支合手 1:契约胜于直观
你看到了 OpenClaw 器用描写发生的事情。它起作用的原因是机械的:模子对你的描写进行 token 别的步地匹配,以决定器用是否与刻下查询斟酌。疲塌的描写匹配整个内容。精准的描写只匹配你想要的内容。
我面前用于整个器用界说的模板,我薄情你今晚对你的三个常用的器用也这么作念:
name: [tool_name] description: [WHAT specifically it returns, not vague nouns but the actual shape of useful output]. Call this when [specific trigger conditions]. Do NOT call when [common misuse case]. Expected output: [format and key fields].
"不要调用当"(Do NOT call when)这行是更正切的关节。莫得它,模子将每个器用都视为"可能"。有了它,模子就有了个契约。
支合手 2:敛迹胜于器用
每次你意象"我需要个新器用来料理这个问题"时,停驻来。先问:CLAUDE.md 中的行能料理它吗?
与其用个 linter MCP 处事器,不如用个敛迹:"每次提交前运行测试。"与其用个作风查验 agent,不如用个敛迹:"罢免 CONVENTIONS.md 中的商定。"与其用个规画器用,不如用个敛迹:"在触碰代码前老是先写 plan.md。"
CLAUDE.md 中的敛迹在运行时资本为 token,并增多了故障面。个器用每次调用时都会遽然 token,增多个模子可能出错的有联想点,何况需要保重。旦你看到它,数学就很昭彰了。
个我履行上用作跨模样基础的初学 CLAUDE.md。不是单体,而是指向门文献的航层:
Senior engineer. You plan before you code. You test before you push. 1. Read this file + any progress.md at session start 2. Plan first. Write plan.md before implementation. 3. One feature at a time. Commit after each. 4. Run existing tests before AND after changes 5. Update progress.md before session ends ## Constraints - Never overwrite files without showing a diff first - If a task needs more than 3 files changed, break it down - When unsure, ask. Don't guess at business logic. - Keep commits small and descriptive ## Project specifics [Your stack, conventions, key files here] See CONVENTIONS.md for code style rules.
二十行告诉 agent 如何责任,而不是知谈什么。Anthropic 我方的经久运行 agent harness 在近似的中枢之上使用进程文献、列表和结构化的 git 提交。OpenAI 的 Codex 团队以粗重的式学到了纷乱的 AGENTS.md 会失败。他们的薄情:"给 Codex 张舆图,而不是 1,000 页的讲解书。"
关节是将渐进式线路利用于成就:个节略的 CLAUDE.md,指向 agent 在需要时读取的详备文献。不是它浏览和忽略的 500 行单体。不是什么都不说的 10 行存根。个航层。
支合手 3:季度清算
每三个月,我坐下来疑望我的 harness,问五个问题:
哪些器用在 30 天内未被 agent 调用过?删除它们。
哪些 CLAUDE.md 章程的存在是因为旧模子愚蠢?移除它们。
哪些护栏面前由模子原生处理?剥离它们。
崎岖文注入仍然要吗,如故模子的检索才能仍是满盈好?测试不带它的情况。
两个器用不错并为个,并带有好的描写吗?作念这件事。
上个季度在 OpenClaw 上:我删除了个 6 周内未触发的重试不同模子的回退机制(Kimi K2.5 仍是变得满盈自若)。我移除了三条对于 JSON 神色的 CLAUDE.md 章程,模子面前原生处理这些章程。我将两个监控器用并为个,并带有具体的契约。
净成果:行径部分减少了 30。丢失。快的反馈。少需要保重。
Manus 合手续运行这个过程。Peak Ji 的测试:对你的 agent 评估套件运行个强的模子。要是能莫得提,你的 harness 等于在负担它。仅这个问题就能告诉你切:你是在构建脚手架如故在构建笼子。
4、这对你今晚意味着什么
十五分钟。这等于你简直动手所需的一王人时分。
重写你的三个常用器用的描写。找到你的 agent 调用多的器用。开它们的描写。要是它们说的是器用作念什么,而不是何时调用它和预期什么,用上头的契约模板重写它们。每个器用五分钟。影响是立竿见影的,agent 住手估量并动手罢免指示。
然后将你的 CLAUDE.md 构建为航层。要是你还莫得,粘贴上头的初学模板并填写你的堆栈细节。要是你仍是有了,查验:它是单体如故舆图?将详备章程移动到单的文献(CONVENTIONS.md、ARCHITECTURE.md),并将你的 CLAUDE.md 保合手在 20-40 行傍边。Agent 每次会话都读取 CLAUDE.md。它应该找到向,而不是百科全书。
然后删除件事。个器用。个 CLAUDE.md 章程。个中间件钩子。选个你个月没碰过的东西。删除它。运行你的平日责任过程。要是什么都没坏,它就不应该在哪里。要是某些东西坏了,恭喜,你刚刚了解了你的 harness 中简直热切的东西。这比某东谈主在 X 上发布的任何架构图都有价值
Harness 工程正在流行。给它六个月。会有课程。认证。GitHub 仓库,有 41 个手段界说、11 个子代理,和个比大大都代码库都长的 README。三千颗星,分娩部署。
与此同期,简直录用 agent 的构建者将继续作念这个词存在之前他们直在作念的事情。编写明晰的指示。选拔浮浅的器用。删除住手责任的东西。
Harness 不是份新责任。它是同份责任,只是名字好了。
相关词条:不锈钢保温施工 塑料管材生产线 钢绞线厂家 玻璃棉板 泡沫板橡塑板专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述潮州钢绞线规格,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。