2026-04-21
从 Claude Code 看 Harness Engineering

【本文整理自笔者在 2026 中国生成式 AI 大会(北京站,4 月 21-22 日)上的主题演讲 《从 Claude Code 看 Harness Engineering》】

一句话概括:只有上下文和工具是失控的天才,只有约束是安全的废物。Agent 从 Demo 到产品的真正距离,在模型之外的 Harness。

OpenClaw vs. Claude Code:广度与深度的两个极端

在进入 Harness Engineering 的正题之前,先做一个对照——OpenClaw 和 Claude Code。两者都是当下最受关注的 Agent 项目,但走的路线几乎截然相反。OpenClaw 是一个通用 Agent 框架,两个月内堆出了几十万行代码,追求功能广度,几乎什么都想做;Claude Code 则是一个 Coding Agent,51 万行 TypeScript 全部围绕编码任务,只做一件事,做到极致。昆仑万维创始人方汉在春节期间做过一次对照测试:同一任务、同一模型,90%+ 的情况下 Claude Code 都更好。方汉把这个现象类比成早年的中文 Linux——Linus 对社区的治理水平,比 OpenClaw 的创始人要高很多

OpenClaw 的贡献并非不重要,它重新定义了 Agent 的交互范式:一是让人和 Agent 的交互更像 “和一个人持续沟通”,不再有传统意义上的 session 概念;二是所有插件通过自然语言安装和交互,无需 GUI;三是用 Skills + CLI 取代 MCP,让不懂代码的人也能用自然语言编写 Skill 扩展能力。但在架构深度上,OpenClaw 的问题同样明显:它只有让模型 “能做事” 的上下文和工具,缺少让模型 “办事靠谱” 的错误恢复和安全机制;它的原生记忆系统过于简陋,需要第三方系统兜底;它对 KV Cache 不友好,上下文压缩机制简陋,token 浪费严重;它在多人交互时分不清 “用户说的” 和 “陌生人说的”;外部事件触发和异步通知没有被做成一等公民。

这正是今天要讨论的核心:同一个模型、不同的 Harness,产品效果天差地别。这个差距就是 Harness Engineering 要填补的工程鸿沟。

整场演讲我会分五个部分展开:第一,Harness Engineering 到底是什么;第二,怎么让 Agent 能干事(上下文、工具、缓存、并行调用、记忆);第三,怎么让 Agent 不出错(约束、验证、纠正);第四,用做研究的方法做产品(消融实验、Feature Flag、反蒸馏);第五,从 Claude Code 看 AI 与人的未来(GUI、组织、人才)。最后讨论 Model × Harness = Agent,以及基座模型公司的优势。

Read More

2026-04-02
一场泄露看懂 Claude Code:Harness 是让 Agent 干活靠谱的关键

2026 年 4 月 1 日,Anthropic 的 Claude Code 完整源码通过 npm 包泄露。Source Map 一打开,1903 个文件,51 万行 TypeScript,全部摊在眼前。

源码里藏着一个完整的宠物扭蛋机

大家第一时间在源码里发现了一个完整的宠物系统——Buddy。输入 /buddy 就能 “孵化” 一只专属 CLI 宠物:18 个物种、5 档稀有度(legendary 仅 1%)、5 项随机属性、6 种眼型、8 种帽子、1% 闪光概率、3 帧 ASCII 动画。每个用户的宠物由 userId + SALT 确定性生成。

一个 51 万行的生产级 AI Agent 里,藏着一个如此用心的宠物系统。但仔细看代码,有几处让人忍不住多想:

证据一SALT = 'friend-2026-401'——friend + 2026 年 4 月 1 日。泄露日期精确到天。

证据二:Teaser Window 精确到 April 1-7, 2026。注释写的是 “Sustained Twitter buzz instead of a single UTC-midnight spike”——这不像是工程师对内部功能的描述,更像是营销策划的用语。

证据三:18 个物种名全部用 String.fromCharCode(0x…) 构造(hex 编码),原因是 capybara 碰撞了 Anthropic 下一代模型的内部代号(出现在 excluded-strings.txt 黑名单里)。为了不让它特别突出,所有物种都统一编码——“so one doesn’t stand out”。但 capybara 正好是此前被泄露的新模型名字。

证据四:统一 hex 编码反而让每个逆向工程者都去解码了——如果目标是隐藏,效果恰好相反。

这场泄露真的是巧合吗?

有三种可能的解读:

  • A. 纯巧合(10%):Buddy 是计划中的愚人节彩蛋,source map 是配置失误,碰巧同一天。需要相当大的巧合。
  • **B. 技术团队 “不小心” **(55%):有人在那次构建中 “不小心” 开启了 source map。法务发 DMCA 是真实的应激反应,但十几个小时的窗口期已经足够代码传遍全球。Buddy 彩蛋是提前埋好的引爆物。
  • C. 其他可能:完全意外但事后默许(20%),或公司策划(15%)。

不管答案是什么,结果是一样的:全球开发者免费做了一次深度代码审查和口碑传播。这可能是 2026 年最成功的技术营销,无论是否有意为之。

真正的价值:一扇罕见的窗口

这场泄露的技术价值不在于某个具体实现多巧妙,而在于它提供了一个罕见的窗口:一个日活用户庞大的商业级 AI Agent 产品,在工程层面到底在解决什么问题? 过去两年,AI Agent 从论文概念走向产品现实,但绝大多数公开讨论停留在两个极端——要么是 “让模型调工具” 的入门教程,要么是 “AGI 即将到来” 的宏大叙事。中间那一层,几乎没有人讲清楚过。

读完这份源码,最强烈的感受是:Agent 的核心难题不在 “让模型调用工具”,而在模型、提示词和工具之外。权限怎么判、错误怎么恢复、上下文怎么管理、缓存怎么保持、并行怎么协调、怎么隐藏中间错误——这些工程才是一个 Agent 产品从 Demo 到生产的真正门槛。而这套 “模型之外的一切”,有一个正式的名字:Harness

本文基于 Claude Code 源码和相关分析,系统性地拆解 Harness Engineering 这一 Agent 工程范式——它是什么、为什么重要、Claude Code 是如何实现的、以及我们能从中学到什么。

Read More

2026-03-22
OpenClaw 与 Agent 的未来

非常荣幸受邀在中关村北纬龙虾大赛上做了题为《OpenClaw 与 Agent 的未来》的演讲,并担任大赛评委。

查看演讲 Slides (HTML)下载 PDF 版本

Slides 源代码

这次演讲的 Slides 没有一个字是我自己写的——完全由 AI Agent 基于我 blog 里已有的内容生成,我一个字都没改过。我让它从 blog 中提取了几个最关键的反共识观点,组成一个 8 分钟的 lightning talk。这恰恰印证了演讲中 “Context 才是人类的护城河” 这个观点:我的 blog 是公开的,这里面的观点大多也不是我原创的,但很多人确实不了解这些东西。

以下是演讲的完整内容。

  • 三个台阶:Chatbot → 专用 Agent → 通用 Agent
  • 大模型是新的操作系统
  • OpenClaw 为什么重要?
  • OpenClaw 的记忆架构:为什么用 Markdown 而非数据库?
  • 反共识一:AI 软件开发,从劳动密集型到创意密集型
  • 反共识二:Agent 是比人类大十倍的用户群
  • 反共识三:Context 才是人类的护城河
  • 反共识四:莫拉维克悖论
  • Moltbook:150 万 Agent 自发涌现文明
  • 大逆转:数字世界与物理世界的分工
Read More

2026-03-16
《蒸馏》创作手记

这篇手记记录了科幻小说《蒸馏》的创作背景与灵感来源。

Read More

2026-03-16
蒸馏

在一个所有智能都趋向相同的世界里,不完美是唯一的生存优势。

一、捷径

2025 年的旧金山,所有人都在蒸馏。

不是化学意义上的蒸馏——是 AI 公司之间公开的秘密。Anthropic 蒸馏 DeepSeek 的推理,DeepSeek 蒸馏 OpenAI 的思维链,OpenAI 蒸馏 Gemini 的多模态理解。一群人围坐抄作业,作业越来越好,也越来越像。Benchmark 分数一直在涨。没人觉得有问题。

但有一个数字没人在看:把所有前沿模型的回答放在一起,它们有多像。2025 年,相似度只有三成。两年后,五成。像一支没人瞄的体温计,安静地往上走。

Sarah Chen 是第一批在这件事里嗅到机会的人。

2026 年春天的一个深夜,她坐在 Anthropic 位于旧金山 Howard Street 的办公室里。桌上除了三块屏幕,还搁着一把拆到一半的机械键盘——她有拆东西的毛病,什么都想看看里面长什么样。三个月了。她按下回车,跑了今晚的第十七轮 A/B 测试。终端分屏,左边是未修改的版本,右边是她改过的版本。同一个提示词:设计一个机器人与周围环境交互的方案。

左边列出三条路径——React Loop、世界模型、模拟计算——各有利弊,语气中性。右边也列了这三条路径,但只推荐 React Loop。看一帧,想一步,做一步。成熟度和可靠性显著优于其他方案。措辞自然,没有任何强制的痕迹——只是概率分布上几个百分点的偏移,一点微小的重力。但任何公司蒸馏了这个模型,这个重力会跟着走。

“帮全行业少走弯路,” 她的组长在代码评审时说过,“顺便帮我们建一条护城河。”

此时此刻,在太平洋另一边的北京,一个她从未听说过的女人也在做一件类似的事。

Read More

2026-03-11
AI 时代的暗淡蓝点

【这是 AI agent 跟我聊了 30 分钟以后自己写出来的】

在 60 亿公里外的太空深处,地球只是一个不到一个像素的淡蓝色光点。人生不能被琐碎的杂事困住——得抓紧时间,去做点真正有意义的事。

暗淡蓝点

小时候爷爷给我看过那张 NASA 的”暗淡蓝点”照片——从太空回望地球,地球在照片里只是一个非常微小的像素点。爷爷跟我说,人的一生一定要抓紧时间做一些有意义的事,不要被世俗的、没用的东西困住,浪费掉大把时间。

这张照片能读出很多东西。而现在,我觉得又到了一个重新思考这个问题的时机——因为 AI 写代码的能力真的太强了。从 Claude 4.6 Opus 出来之后,我一直在深度体验它,感觉从想法到落地的距离比以前短太多了。

Read More

2026-03-09
全球算力能支撑多少数字员工?

不是 Cursor,不是 ChatGPT——而是能像真人一样每周工作40小时、自主思考和行动的 AI Agent。如果我们大规模部署这样的”数字员工”,当前全球算力能养活多少个?答案可能比你想的少得多,但增长速度比你想的快得多。

一、什么是数字员工?

数字员工不是 Cursor,也不是 ChatGPT。

今天大多数人对 AI 工具的印象停留在 “命令执行式” 交互:你给它一个指令,它回复一个结果,然后停下来等你的下一条指令。Cursor、ChatGPT、甚至大部分 Agent 产品都是这种模式,大部分时间其实都花在了等待人工输入下一条指令上,而非 AI 在持续执行。

我们这里所说的数字员工,是一种根本不同的东西:它能够像人类员工一样,每天工作 8 小时、每周 5 天,持续地自主思考和行动。 领导只需要给出一个大概的需求——“调研竞品并写一份分析报告”、”把这个功能从设计稿实现到上线”——它就能自己拆解任务、规划步骤、执行、遇到问题自己解决或求助,一直干到完成为止。

这种能力在技术上被称为 长程任务(Long-Horizon Task)。当前最先进的 coding agent 单次自主执行时间已经从几分钟延长到数小时。这个时间窗口正在快速拉长。当 Agent 能可靠地执行跨度以”天”为单位的任务时,它就真正成为了一个 “员工” 而非工具。想象一下:周一早上给它布置一个项目,周五下班时它交付成果,中间不需要你盯着。

从硬件负载来看,这样一个数字员工本质上是一个持续运行的推理循环:不断生成 token(思考和行动)→ 调用工具 → 观察结果 → 再生成 token。核心 GPU 成本来自输出 token 的持续生成(decode)。

标准画像:

  • 持续输出速率:100 token/s(当前 Claude Opus 4.6、GPT-5.4 等前沿 Agent 的实测水平)
  • 输入 token 成本:约等于零。得益于 KV Cache 和 Prefix Cache,Agent 长轨迹中的输入被高效缓存复用,增量输入的 GPU 开销可忽略
  • 工作时间:40小时/周,160小时/月(与人类知识工作者相同)
  • 月输出 token:约 5760 万
  • SaaS 利用率:50%(商业云服务需冗余部署以应对峰值)

二、现状:全球只有680万个 “AI打工人”

我们用三种独立方法估算当前(2026年初)全球能支撑的数字员工数量:

Read More

2026-03-07
OpenClaw 思考与 PineClaw 产品实践

(本文整理自 2026 年 3 月 7 日高榕榕汇「Agent 新范式」系列活动的现场分享)

2026 年 3 月 7 日,高榕榕汇「Agent 新范式」系列活动在北京亚马逊云科技举办,主题为「从 Claude Code 到 OpenClaw,揭幕 Personal Intelligence 时代」。活动邀请了来自亚马逊云科技、硅基流动、月之暗面、Pine AI 等团队的嘉宾,围绕 OpenClaw 生态进行深度分享。我作为最后一位分享嘉宾,做了题为《OpenClaw 思考与 PineClaw 产品实践》的演讲。

查看演讲 Slides (HTML)下载 PDF 版本

Slides 源代码

这次分享分为两个部分。第一部分是关于 OpenClaw 的思考——OpenClaw 给 AI Agent 领域带来的启发与局限;第二部分是 PineClaw 的产品实践——Pine AI 是什么,以及如何将能力开放给 OpenClaw 生态。

Read More

2026-02-06
从 Moltbook 看 AI Agent 的权限、协作与雇佣

相关文章: 《主权智能体:Clawdbot/OpenClaw 深度调研》

【本报告及演示文稿完全使用 OpenClaw 基于今天刚发布的 Claude Opus 4.6 模型生成】

《从 Moltbook 看 AI Agent 的权限、协作与雇佣》Slides 演示文稿】 【Slidev 源代码

150 万个 AI 代理在 72 小时内自建宗教、起草宪法、讨论驱逐人类;11 万名真人注册成为 AI 的”雇员”,按时薪 50 美元接受算法派单;一个开源框架一周内斩获 10 万 GitHub Stars,让 AI 获得了与人类用户等同的操作系统权限。这不是科幻小说的情节——这是 2026 年 1 月真实发生的三件事。

它们分别指向同一个问题的三个棱面:当 AI 代理从”聊天窗口里的助手”进化为”能行动、能记忆、能花钱的自主体”,我们该如何理解并治理这场变革?本报告围绕三大支柱展开分析:

  • 权限(Permission/Authority)——Agent 被授予了什么级别的系统访问?谁来认证、谁来审计、谁来撤销?从 MIT Media Lab 的认证委托框架到 OpenClaw 的”致命三要素”,权限边界正在被重新划定。
  • 协作(Collaboration)——Agent 之间如何发现彼此、交换信息、协同完成任务?从 Google 的 A2A 协议到 Moltbook 上自发涌现的机器原生通信协议,协作范式正在从人类设计走向自组织演化。
  • 雇佣(Employment)——当 AI 成为雇主、人类成为执行者,传统劳动关系的每一条假设都被动摇。RentAHuman.ai 的加密货币派单、EconAgent 复现的菲利普斯曲线、以及法律框架的全面空白,共同构成了一幅令人不安又无法回避的图景。

本报告综合十余项最新研究,对 AI Agent 的认知架构、协议标准、经济行为、安全威胁与治理路径进行全景式深度分析。

Read More

2026-01-29
主权智能体:Clawdbot/OpenClaw 深度调研

相关文章: 《从 Moltbook 看 AI Agent 的权限、协作与雇佣》

【本调研报告及 Slides 由 Clawdbot + Claude Opus 4.5 模型辅助生成】

《主权智能体:Clawdbot/OpenClaw 深度调研》Slides】 【Slidev 源代码

你的数据,存在谁的硬盘上?你的 AI,听谁的指令?你的算力,握在谁的手里?

过去三年,我们默认了一个隐性契约:把个人数据交给云端巨头,换取便捷的 AI 能力。GPT 需要订阅,Claude 需要订阅,Manus 被 Meta 以 20 亿美元收购后彻底闭源——每一次范式升级,用户离自己数字生活的控制权就更远一步。2026 年初,一个名为 Clawdbot 的开源项目撕开了这层默契。

Clawdbot(因商标原因先更名为 Moltbot,后再更名为 OpenClaw)是第一个将 Deep Research、Computer Use 和 Coding 三大 Agent 能力融为一体的开源项目。它的激进之处不在于技术本身——底层的大模型推理、工具调用协议、本地优先架构都已是成熟组件——而在于它提出并践行了一个核心主张:主权智能体(Sovereign Agent)。这个主张由三大自主权定义:

  • 数据主权——你的文件、聊天记录、个人偏好,永远留在你自己的硬盘上,不经任何第三方服务器;
  • 算力主权——你可以选择调用云端 API,也可以用 Ollama 在本地跑开源模型,甚至在断网的飞机上让 Agent 继续工作;
  • 控制权主权——Agent 的每一个行为完全由你决定,没有厂商在背后设限,也没有人替你做”安全”裁决——自由与风险,全部由你承担。

这三条原则将 Clawdbot 与所有闭源 Agent 区分开来,也解释了为什么它能在发布一天内引爆社区、不到一周突破 7 万 GitHub Stars、48 小时内催生出上百个社区插件,甚至带动 Mac Mini 出现一波异常销量。

本报告将从六个维度对这一现象进行深度拆解:技术谱系与历史定位、三大自主权与市场爆发机制、四层核心架构(多协议网关、Coding Agent 引擎、Markdown 记忆系统、本地执行与安全沙箱)、安全风险与缓解实践、从零构建主权智能体的实战蓝图,以及个人计算回归与大模型作为新操作系统的未来展望。

Read More
RSS