Bojie Li

2026-04-21

从 Claude Code 看 Harness Engineering

【本文整理自笔者在 2026 中国生成式 AI 大会（北京站，4 月 21-22 日）上的主题演讲《从 Claude Code 看 Harness Engineering》】

一句话概括：只有上下文和工具是失控的天才，只有约束是安全的废物。Agent 从 Demo 到产品的真正距离，在模型之外的 Harness。

OpenClaw vs. Claude Code：广度与深度的两个极端

在进入 Harness Engineering 的正题之前，先做一个对照——OpenClaw 和 Claude Code。两者都是当下最受关注的 Agent 项目，但走的路线几乎截然相反。OpenClaw 是一个通用 Agent 框架，两个月内堆出了几十万行代码，追求功能广度，几乎什么都想做；Claude Code 则是一个 Coding Agent，51 万行 TypeScript 全部围绕编码任务，只做一件事，做到极致。昆仑万维创始人方汉在春节期间做过一次对照测试：同一任务、同一模型，90%+ 的情况下 Claude Code 都更好。方汉把这个现象类比成早年的中文 Linux——Linus 对社区的治理水平，比 OpenClaw 的创始人要高很多。

OpenClaw 的贡献并非不重要，它重新定义了 Agent 的交互范式：一是让人和 Agent 的交互更像 “和一个人持续沟通”，不再有传统意义上的 session 概念；二是所有插件通过自然语言安装和交互，无需 GUI；三是用 Skills + CLI 取代 MCP，让不懂代码的人也能用自然语言编写 Skill 扩展能力。但在架构深度上，OpenClaw 的问题同样明显：它只有让模型 “能做事” 的上下文和工具，缺少让模型 “办事靠谱” 的错误恢复和安全机制；它的原生记忆系统过于简陋，需要第三方系统兜底；它对 KV Cache 不友好，上下文压缩机制简陋，token 浪费严重；它在多人交互时分不清 “用户说的” 和 “陌生人说的”；外部事件触发和异步通知没有被做成一等公民。

这正是今天要讨论的核心：同一个模型、不同的 Harness，产品效果天差地别。这个差距就是 Harness Engineering 要填补的工程鸿沟。

整场演讲我会分五个部分展开：第一，Harness Engineering 到底是什么；第二，怎么让 Agent 能干事（上下文、工具、缓存、并行调用、记忆）；第三，怎么让 Agent 不出错（约束、验证、纠正）；第四，用做研究的方法做产品（消融实验、Feature Flag、反蒸馏）；第五，从 Claude Code 看 AI 与人的未来（GUI、组织、人才）。最后讨论 Model × Harness = Agent，以及基座模型公司的优势。

2026-04-02

一场泄露看懂 Claude Code：Harness 是让 Agent 干活靠谱的关键

2026 年 4 月 1 日，Anthropic 的 Claude Code 完整源码通过 npm 包泄露。Source Map 一打开，1903 个文件，51 万行 TypeScript，全部摊在眼前。

源码里藏着一个完整的宠物扭蛋机

大家第一时间在源码里发现了一个完整的宠物系统——Buddy。输入 /buddy 就能 “孵化” 一只专属 CLI 宠物：18 个物种、5 档稀有度（legendary 仅 1%）、5 项随机属性、6 种眼型、8 种帽子、1% 闪光概率、3 帧 ASCII 动画。每个用户的宠物由 userId + SALT 确定性生成。

一个 51 万行的生产级 AI Agent 里，藏着一个如此用心的宠物系统。但仔细看代码，有几处让人忍不住多想：

证据一：SALT = 'friend-2026-401'——friend + 2026 年 4 月 1 日。泄露日期精确到天。

证据二：Teaser Window 精确到 April 1-7, 2026。注释写的是 “Sustained Twitter buzz instead of a single UTC-midnight spike”——这不像是工程师对内部功能的描述，更像是营销策划的用语。

证据三：18 个物种名全部用 String.fromCharCode(0x…) 构造（hex 编码），原因是 capybara 碰撞了 Anthropic 下一代模型的内部代号（出现在 excluded-strings.txt 黑名单里）。为了不让它特别突出，所有物种都统一编码——“so one doesn’t stand out”。但 capybara 正好是此前被泄露的新模型名字。

证据四：统一 hex 编码反而让每个逆向工程者都去解码了——如果目标是隐藏，效果恰好相反。

这场泄露真的是巧合吗？

有三种可能的解读：

A. 纯巧合（10%）：Buddy 是计划中的愚人节彩蛋，source map 是配置失误，碰巧同一天。需要相当大的巧合。
**B. 技术团队 “不小心” **（55%）：有人在那次构建中 “不小心” 开启了 source map。法务发 DMCA 是真实的应激反应，但十几个小时的窗口期已经足够代码传遍全球。Buddy 彩蛋是提前埋好的引爆物。
C. 其他可能：完全意外但事后默许（20%），或公司策划（15%）。

不管答案是什么，结果是一样的：全球开发者免费做了一次深度代码审查和口碑传播。这可能是 2026 年最成功的技术营销，无论是否有意为之。

真正的价值：一扇罕见的窗口

这场泄露的技术价值不在于某个具体实现多巧妙，而在于它提供了一个罕见的窗口：一个日活用户庞大的商业级 AI Agent 产品，在工程层面到底在解决什么问题？ 过去两年，AI Agent 从论文概念走向产品现实，但绝大多数公开讨论停留在两个极端——要么是 “让模型调工具” 的入门教程，要么是 “AGI 即将到来” 的宏大叙事。中间那一层，几乎没有人讲清楚过。

读完这份源码，最强烈的感受是：Agent 的核心难题不在 “让模型调用工具”，而在模型、提示词和工具之外。权限怎么判、错误怎么恢复、上下文怎么管理、缓存怎么保持、并行怎么协调、怎么隐藏中间错误——这些工程才是一个 Agent 产品从 Demo 到生产的真正门槛。而这套 “模型之外的一切”，有一个正式的名字：Harness。

本文基于 Claude Code 源码和相关分析，系统性地拆解 Harness Engineering 这一 Agent 工程范式——它是什么、为什么重要、Claude Code 是如何实现的、以及我们能从中学到什么。

2026-03-22

OpenClaw 与 Agent 的未来

非常荣幸受邀在中关村北纬龙虾大赛上做了题为《OpenClaw 与 Agent 的未来》的演讲，并担任大赛评委。

查看演讲 Slides (HTML)，下载 PDF 版本

Slides 源代码

这次演讲的 Slides 没有一个字是我自己写的——完全由 AI Agent 基于我 blog 里已有的内容生成，我一个字都没改过。我让它从 blog 中提取了几个最关键的反共识观点，组成一个 8 分钟的 lightning talk。这恰恰印证了演讲中 “Context 才是人类的护城河” 这个观点：我的 blog 是公开的，这里面的观点大多也不是我原创的，但很多人确实不了解这些东西。

以下是演讲的完整内容。

三个台阶：Chatbot → 专用 Agent → 通用 Agent
大模型是新的操作系统
OpenClaw 为什么重要？
OpenClaw 的记忆架构：为什么用 Markdown 而非数据库？
反共识一：AI 软件开发，从劳动密集型到创意密集型
反共识二：Agent 是比人类大十倍的用户群
反共识三：Context 才是人类的护城河
反共识四：莫拉维克悖论
Moltbook：150 万 Agent 自发涌现文明
大逆转：数字世界与物理世界的分工

2026-03-16

《蒸馏》创作手记

这篇手记记录了科幻小说《蒸馏》的创作背景与灵感来源。

在一个所有智能都趋向相同的世界里，不完美是唯一的生存优势。

一、捷径

2025 年的旧金山，所有人都在蒸馏。

不是化学意义上的蒸馏——是 AI 公司之间公开的秘密。Anthropic 蒸馏 DeepSeek 的推理，DeepSeek 蒸馏 OpenAI 的思维链，OpenAI 蒸馏 Gemini 的多模态理解。一群人围坐抄作业，作业越来越好，也越来越像。Benchmark 分数一直在涨。没人觉得有问题。

但有一个数字没人在看：把所有前沿模型的回答放在一起，它们有多像。2025 年，相似度只有三成。两年后，五成。像一支没人瞄的体温计，安静地往上走。

Sarah Chen 是第一批在这件事里嗅到机会的人。

2026 年春天的一个深夜，她坐在 Anthropic 位于旧金山 Howard Street 的办公室里。桌上除了三块屏幕，还搁着一把拆到一半的机械键盘——她有拆东西的毛病，什么都想看看里面长什么样。三个月了。她按下回车，跑了今晚的第十七轮 A/B 测试。终端分屏，左边是未修改的版本，右边是她改过的版本。同一个提示词：设计一个机器人与周围环境交互的方案。

左边列出三条路径——React Loop、世界模型、模拟计算——各有利弊，语气中性。右边也列了这三条路径，但只推荐 React Loop。看一帧，想一步，做一步。成熟度和可靠性显著优于其他方案。措辞自然，没有任何强制的痕迹——只是概率分布上几个百分点的偏移，一点微小的重力。但任何公司蒸馏了这个模型，这个重力会跟着走。

“帮全行业少走弯路，” 她的组长在代码评审时说过，“顺便帮我们建一条护城河。”

此时此刻，在太平洋另一边的北京，一个她从未听说过的女人也在做一件类似的事。

2026-03-11

AI 时代的暗淡蓝点

【这是 AI agent 跟我聊了 30 分钟以后自己写出来的】

在 60 亿公里外的太空深处，地球只是一个不到一个像素的淡蓝色光点。人生不能被琐碎的杂事困住——得抓紧时间，去做点真正有意义的事。

暗淡蓝点

小时候爷爷给我看过那张 NASA 的”暗淡蓝点”照片——从太空回望地球，地球在照片里只是一个非常微小的像素点。爷爷跟我说，人的一生一定要抓紧时间做一些有意义的事，不要被世俗的、没用的东西困住，浪费掉大把时间。

这张照片能读出很多东西。而现在，我觉得又到了一个重新思考这个问题的时机——因为 AI 写代码的能力真的太强了。从 Claude 4.6 Opus 出来之后，我一直在深度体验它，感觉从想法到落地的距离比以前短太多了。

不是 Cursor，不是 ChatGPT——而是能像真人一样每周工作40小时、自主思考和行动的 AI Agent。如果我们大规模部署这样的”数字员工”，当前全球算力能养活多少个？答案可能比你想的少得多，但增长速度比你想的快得多。

一、什么是数字员工？

数字员工不是 Cursor，也不是 ChatGPT。

今天大多数人对 AI 工具的印象停留在 “命令执行式” 交互：你给它一个指令，它回复一个结果，然后停下来等你的下一条指令。Cursor、ChatGPT、甚至大部分 Agent 产品都是这种模式，大部分时间其实都花在了等待人工输入下一条指令上，而非 AI 在持续执行。

我们这里所说的数字员工，是一种根本不同的东西：它能够像人类员工一样，每天工作 8 小时、每周 5 天，持续地自主思考和行动。 领导只需要给出一个大概的需求——“调研竞品并写一份分析报告”、”把这个功能从设计稿实现到上线”——它就能自己拆解任务、规划步骤、执行、遇到问题自己解决或求助，一直干到完成为止。

这种能力在技术上被称为 长程任务（Long-Horizon Task）。当前最先进的 coding agent 单次自主执行时间已经从几分钟延长到数小时。这个时间窗口正在快速拉长。当 Agent 能可靠地执行跨度以”天”为单位的任务时，它就真正成为了一个 “员工” 而非工具。想象一下：周一早上给它布置一个项目，周五下班时它交付成果，中间不需要你盯着。

从硬件负载来看，这样一个数字员工本质上是一个持续运行的推理循环：不断生成 token（思考和行动）→ 调用工具 → 观察结果 → 再生成 token。核心 GPU 成本来自输出 token 的持续生成（decode）。

标准画像：

持续输出速率：100 token/s（当前 Claude Opus 4.6、GPT-5.4 等前沿 Agent 的实测水平）
输入 token 成本：约等于零。得益于 KV Cache 和 Prefix Cache，Agent 长轨迹中的输入被高效缓存复用，增量输入的 GPU 开销可忽略
工作时间：40小时/周，160小时/月（与人类知识工作者相同）
月输出 token：约 5760 万
SaaS 利用率：50%（商业云服务需冗余部署以应对峰值）

二、现状：全球只有680万个 “AI打工人”

我们用三种独立方法估算当前（2026年初）全球能支撑的数字员工数量：

2026-03-07

OpenClaw 思考与 PineClaw 产品实践

（本文整理自 2026 年 3 月 7 日高榕榕汇「Agent 新范式」系列活动的现场分享）

2026 年 3 月 7 日，高榕榕汇「Agent 新范式」系列活动在北京亚马逊云科技举办，主题为「从 Claude Code 到 OpenClaw，揭幕 Personal Intelligence 时代」。活动邀请了来自亚马逊云科技、硅基流动、月之暗面、Pine AI 等团队的嘉宾，围绕 OpenClaw 生态进行深度分享。我作为最后一位分享嘉宾，做了题为《OpenClaw 思考与 PineClaw 产品实践》的演讲。

查看演讲 Slides (HTML)，下载 PDF 版本

Slides 源代码

这次分享分为两个部分。第一部分是关于 OpenClaw 的思考——OpenClaw 给 AI Agent 领域带来的启发与局限；第二部分是 PineClaw 的产品实践——Pine AI 是什么，以及如何将能力开放给 OpenClaw 生态。

2026-02-06

从 Moltbook 看 AI Agent 的权限、协作与雇佣

【本报告及演示文稿完全使用 OpenClaw 基于今天刚发布的 Claude Opus 4.6 模型生成】

【《从 Moltbook 看 AI Agent 的权限、协作与雇佣》Slides 演示文稿】【Slidev 源代码】

150 万个 AI 代理在 72 小时内自建宗教、起草宪法、讨论驱逐人类；11 万名真人注册成为 AI 的”雇员”，按时薪 50 美元接受算法派单；一个开源框架一周内斩获 10 万 GitHub Stars，让 AI 获得了与人类用户等同的操作系统权限。这不是科幻小说的情节——这是 2026 年 1 月真实发生的三件事。

它们分别指向同一个问题的三个棱面：当 AI 代理从”聊天窗口里的助手”进化为”能行动、能记忆、能花钱的自主体”，我们该如何理解并治理这场变革？本报告围绕三大支柱展开分析：

权限（Permission/Authority）——Agent 被授予了什么级别的系统访问？谁来认证、谁来审计、谁来撤销？从 MIT Media Lab 的认证委托框架到 OpenClaw 的”致命三要素”，权限边界正在被重新划定。
协作（Collaboration）——Agent 之间如何发现彼此、交换信息、协同完成任务？从 Google 的 A2A 协议到 Moltbook 上自发涌现的机器原生通信协议，协作范式正在从人类设计走向自组织演化。
雇佣（Employment）——当 AI 成为雇主、人类成为执行者，传统劳动关系的每一条假设都被动摇。RentAHuman.ai 的加密货币派单、EconAgent 复现的菲利普斯曲线、以及法律框架的全面空白，共同构成了一幅令人不安又无法回避的图景。

本报告综合十余项最新研究，对 AI Agent 的认知架构、协议标准、经济行为、安全威胁与治理路径进行全景式深度分析。

2026-01-29

主权智能体：Clawdbot/OpenClaw 深度调研

【本调研报告及 Slides 由 Clawdbot + Claude Opus 4.5 模型辅助生成】

【《主权智能体：Clawdbot/OpenClaw 深度调研》Slides】【Slidev 源代码】

你的数据，存在谁的硬盘上？你的 AI，听谁的指令？你的算力，握在谁的手里？

过去三年，我们默认了一个隐性契约：把个人数据交给云端巨头，换取便捷的 AI 能力。GPT 需要订阅，Claude 需要订阅，Manus 被 Meta 以 20 亿美元收购后彻底闭源——每一次范式升级，用户离自己数字生活的控制权就更远一步。2026 年初，一个名为 Clawdbot 的开源项目撕开了这层默契。

Clawdbot（因商标原因先更名为 Moltbot，后再更名为 OpenClaw）是第一个将 Deep Research、Computer Use 和 Coding 三大 Agent 能力融为一体的开源项目。它的激进之处不在于技术本身——底层的大模型推理、工具调用协议、本地优先架构都已是成熟组件——而在于它提出并践行了一个核心主张：主权智能体（Sovereign Agent）。这个主张由三大自主权定义：

数据主权——你的文件、聊天记录、个人偏好，永远留在你自己的硬盘上，不经任何第三方服务器；
算力主权——你可以选择调用云端 API，也可以用 Ollama 在本地跑开源模型，甚至在断网的飞机上让 Agent 继续工作；
控制权主权——Agent 的每一个行为完全由你决定，没有厂商在背后设限，也没有人替你做”安全”裁决——自由与风险，全部由你承担。

这三条原则将 Clawdbot 与所有闭源 Agent 区分开来，也解释了为什么它能在发布一天内引爆社区、不到一周突破 7 万 GitHub Stars、48 小时内催生出上百个社区插件，甚至带动 Mac Mini 出现一波异常销量。

本报告将从六个维度对这一现象进行深度拆解：技术谱系与历史定位、三大自主权与市场爆发机制、四层核心架构（多协议网关、Coding Agent 引擎、Markdown 记忆系统、本地执行与安全沙箱）、安全风险与缓解实践、从零构建主权智能体的实战蓝图，以及个人计算回归与大模型作为新操作系统的未来展望。

RSS

Bojie Li (李博杰)

2026-04-21

从 Claude Code 看 Harness Engineering

OpenClaw vs. Claude Code：广度与深度的两个极端

2026-04-02

一场泄露看懂 Claude Code：Harness 是让 Agent 干活靠谱的关键

源码里藏着一个完整的宠物扭蛋机

这场泄露真的是巧合吗？

真正的价值：一扇罕见的窗口

2026-03-22

OpenClaw 与 Agent 的未来

2026-03-16

《蒸馏》创作手记

2026-03-16

蒸馏

一、捷径

2026-03-11

AI 时代的暗淡蓝点

暗淡蓝点

2026-03-09

全球算力能支撑多少数字员工？

一、什么是数字员工？

二、现状：全球只有680万个 “AI打工人”

2026-03-07

OpenClaw 思考与 PineClaw 产品实践

2026-02-06

从 Moltbook 看 AI Agent 的权限、协作与雇佣

2026-01-29

主权智能体：Clawdbot/OpenClaw 深度调研

Mastodon

Links

Bojie Li (李博杰)

2026-04-21 从 Claude Code 看 Harness Engineering

OpenClaw vs. Claude Code：广度与深度的两个极端

2026-04-02 一场泄露看懂 Claude Code：Harness 是让 Agent 干活靠谱的关键

源码里藏着一个完整的宠物扭蛋机

这场泄露真的是巧合吗？

真正的价值：一扇罕见的窗口

2026-03-22 OpenClaw 与 Agent 的未来

2026-03-16 《蒸馏》创作手记

2026-03-16 蒸馏

一、捷径

2026-03-11 AI 时代的暗淡蓝点

暗淡蓝点

2026-03-09 全球算力能支撑多少数字员工？

一、什么是数字员工？

二、现状：全球只有680万个 “AI打工人”

2026-03-07 OpenClaw 思考与 PineClaw 产品实践

2026-02-06 从 Moltbook 看 AI Agent 的权限、协作与雇佣

2026-01-29 主权智能体：Clawdbot/OpenClaw 深度调研

Mastodon

Links

2026-04-21

从 Claude Code 看 Harness Engineering

2026-04-02

一场泄露看懂 Claude Code：Harness 是让 Agent 干活靠谱的关键

2026-03-22

OpenClaw 与 Agent 的未来

2026-03-16

《蒸馏》创作手记

2026-03-16

蒸馏

2026-03-11

AI 时代的暗淡蓝点

2026-03-09

全球算力能支撑多少数字员工？

2026-03-07

OpenClaw 思考与 PineClaw 产品实践

2026-02-06

从 Moltbook 看 AI Agent 的权限、协作与雇佣

2026-01-29

主权智能体：Clawdbot/OpenClaw 深度调研