第一章 架构设计哲学——为什么是OpenClaw 核心问题:AI Agent架构经历了怎样的演化?OpenClaw的六大架构创新解决了什么根本问题?这套体系对我们意味着什么? 第一节 从对话到执行——AI Agent架构的演化之路 本节想要讲的核心内容只有一句话: OpenClaw不是凭空出现的,而是Agent技术演化到"个人自主Agent"阶段的必然产物。 1.1 对话时代:LLM的"只读"困境 2022年11月,ChatGPT的发布让全世界为之震动。人们发现AI可以写诗、写代码、做翻译、回答几乎任何问题。 但很快,最初的兴奋让位于一种微妙的失望: 你:"帮我整理一下收件箱里的重要邮件。" ChatGPT:"好的,你可以按以下步骤操作:1. 打开你的邮箱客户端 2.
核心问题:AI Agent架构经历了怎样的演化?OpenClaw的六大架构创新解决了什么根本问题?这套体系对我们意味着什么?
本节想要讲的核心内容只有一句话: OpenClaw不是凭空出现的,而是Agent技术演化到"个人自主Agent"阶段的必然产物。
2022年11月,ChatGPT的发布让全世界为之震动。人们发现AI可以写诗、写代码、做翻译、回答几乎任何问题。
但很快,最初的兴奋让位于一种微妙的失望:
你:"帮我整理一下收件箱里的重要邮件。" ChatGPT:"好的,你可以按以下步骤操作:1. 打开你的邮箱客户端 2. 创建一个'重要'标签 3. 按发件人筛选..."
它知道怎么做,但它不能替你做。
这就是对话式AI的本质局限——一个博学的"空想家"。它掌握了人类知识的精华,却没有一双手。
让我们更精确地定义这个困境:
| 维度 | 表现 | 后果 |
|---|---|---|
| 无行动力 | 只能输出文本,不能操作环境 | 知识停留在建议层面 |
| 无状态 | 每次对话从零开始 | 永远不会"认识你" |
| 无记忆 | 不记得上次聊了什么 | 重复劳动,无法积累 |
| 无主动性 | 你不问它就不说 | 不能主动帮你做事 |
这四个"无",构成了对话时代的天花板。AI是一个百科全书,但不是一个助手。
2023年6月,OpenAI发布了Function Calling功能——这是AI从"能说"到"能做"的第一步。
核心突破:LLM不再只能输出自然语言,它还能输出结构化的函数调用请求。
传统对话模式: 用户: "北京今天天气怎么样?" AI: "你可以访问 weather.com 查询。" ← 只能告诉你方法 Function Calling模式: 用户: "北京今天天气怎么样?" AI: { "function": "get_weather", "args": {"city": "北京"} } ← 直接调用API 系统: 执行函数,返回结果 AI: "北京今天晴,23°C,东北风3级。" ← 给出真实答案
AI第一次能够"动手"了。它不再只是告诉你怎么做,而是替你去做。
但Function Calling也有明显的局限:
用一个比喻来说:Function Calling就像是给一个人一只手——它能拿东西了,但只能拿一次,拿完就要等新的指令。这远不是一个"助手"应有的样子。
2022年10月,普林斯顿大学和Google研究院的学者发表了ReAct论文,提出了一个关键洞见:推理和行动应该交织进行。
传统方式: 先规划完所有步骤 → 按步骤执行(一次性,不能调整) ReAct方式: 观察 → 思考 → 行动 → 观察 → 思考 → 行动 ...(循环迭代)
这意味着AI不再是"想好了再做",而是像人类一样——边做边想,根据反馈调整。
这个思想催生了Agent框架的井喷:
这些框架证明了一件事:AI Agent是可行的。但它们也暴露了共同的局限:
换句话说,这些框架回答了"AI Agent能不能做"的问题,但没有回答一个更重要的问题:如果AI Agent如此强大,为什么普通人用不上?
答案来自一个意想不到的地方。
Peter Steinberger,奥地利连续创业者,花13年将PSPDFKit做到覆盖10亿台设备后,陷入了严重的职业倦怠。"我连代码都写不出来了,"他说,"我就那样坐着,感到空虚。"于是他买了一张去马德里的单程机票,消失了。重新点燃他热情的,是AI。
2024年底,他意识到一个关键事实:大公司并没有做出真正满足个人需求的AI助手。于是他决定自己动手。
2025年11月,他在摩洛哥度假时,通过WhatsApp给自己搭建的Agent发了一条语音消息。那个Agent自主地把语音转文字、理解指令、执行任务——一连串试探,无需任何人工介入。
"那一刻我明白了。如果你真的赋予它们权力,这些东西简直是该死的聪明、足智多谋的野兽。"——Peter Steinberger
OpenClaw与之前所有Agent框架有三个根本性的不同:
自托管、本地优先。你的Agent运行在你自己的设备上,数据不离开你的机器。没有云端服务器偷看你的对话,没有第三方公司掌握你的隐私。
消息平台原生。你不需要学习新的工具、打开新的网页、安装新的App。你只需要在你已经在用的WhatsApp、Telegram、飞书、Discord里发消息——就像跟朋友聊天一样跟Agent对话。
配置即定义。定义Agent的人格、记忆、行为规范、工具配置,你不需要写一行代码。一切都是Markdown文件。编辑一个.md文件,保存,下一秒Agent的行为就会改变。
传统Agent框架的使用门槛: 学Python → 学LangChain → 写代码 → 调试 → 部署 → 使用 OpenClaw的使用门槛: 安装 → 编辑Markdown文件 → 在WhatsApp里发消息
2026年1月,项目因为商标问题从Clawdbot改名为Moltbot,三天后再次改名为OpenClaw。但名字的更迭丝毫没有阻挡它的传播速度——OpenClaw成为了GitHub历史上增长最快的开源项目,截至2026年3月已积累超过30万Stars。
2026年2月14日,Steinberger宣布加入OpenAI,并将OpenClaw移交给开源基金会。Sam Altman评价他:"Peter是一个天才,对于非常聪明的Agent如何互相协作、为人类做有用的事情,他有很多惊人的想法。"
而Steinberger自己的下一个目标是:"做一个连我妈妈都能用的Agent。"
从ChatGPT的"能说不能做",到Function Calling的"能做一步",到Agent框架的"开发者能用",到OpenClaw的"人人能用"——AI从"对话时代"正式迈入了"执行时代"。

有人把OpenClaw比作一个"数字生命体"——这不是夸张。一个能够自主行动的Agent,确实需要像生命体一样具备完整的功能系统:
接下来,我们逐一理解每个支柱的设计思想。对于每一个“支柱”,我们只讲两个问题: 旧架构的局限是什么?OpenClaw的创新原理是什么?
旧架构的局限
传统对话是线性的:你问一个问题,AI回答一个答案,结束。传统自动化是预编程的:你写好脚本,它按步骤执行,遇到意外就崩溃。
两者都无法处理现实世界的不确定性——你不可能提前规划好所有步骤,因为每一步的结果都可能改变下一步的方向。
OpenClaw的创新
OpenClaw的核心引擎是一个观察-思考-行动的永动循环:

这个循环有三个关键特性:
这不是简单的"多问多答",而是一个真正的迭代过程——Agent能像人类一样,面对复杂任务时分步探索、逐步逼近目标。
→ 详见第二章 ReAct循环
旧架构的局限
传统提示词是临时的——对话结束即消散。你精心调教好的AI风格,明天打开新对话就回到了出厂设置。每次都要重新"教育"AI,AI没有连续的身份。
OpenClaw的创新
OpenClaw用八个Markdown文件定义了Agent的完整人格:
| 文件 | 一句话说明 |
|---|---|
| SOUL.md | 定义"我是谁"——性格、价值观、行为准则 |
| USER.md | 定义"你是谁"——用户画像、偏好 |
| AGENTS.md | 定义"我怎么做事"——决策规则、工作流程 |
| TOOLS.md | 定义"我有什么资源"——环境配置 |
| IDENTITY.md | 名字、头像等基础身份 |
| MEMORY.md | 长期记忆——事实、经验 |
| HEARTBEAT.md | 定时任务清单 |
| BOOTSTRAP.md | 首次运行的初始化引导 |
这些文件在每次对话时被自动注入系统提示词,Agent始终知道自己是谁、在跟谁说话、应该怎么做事。
更重要的是热更新机制:你修改任何一个.md文件,保存后的下一秒,Agent的行为就会改变。不需要重启,不需要重新部署。这让调试和优化Agent变得和编辑文档一样简单。
从"提示工程"到"提示系统工程"——不再是写一段完美的提示词,而是设计一个持续演化的提示词系统。
→ 详见第三章 提示词系统
旧架构的局限
给Agent多少工具?这是一个经典难题:
OpenClaw的创新
OpenClaw继承了Unix哲学——"做一件事,做好它"——提炼出四个基础工具:
read → 读取(获取信息) write → 创建(生成新内容) edit → 修改(精确修改已有内容) exec → 执行(运行Shell命令,与外部世界交互)
为什么四个就够了?因为一个能读文件、写文件、改文件、跑命令的Agent,通过组合这四个原语,几乎可以完成任何本地计算任务。就像Unix的cat、grep、sed、awk可以组合出无穷的功能一样。
在四个基础工具之上,OpenClaw通过Skills(技能) 机制实现能力的模块化扩展。技能本质上也是Markdown文件——描述了某个领域的专业知识和工作流程——Agent按需加载,不会撑爆上下文窗口。
→ 详见第四章 工具系统
旧架构的局限
传统软件是请求-响应式的:你发一个请求,它返回一个响应。你不问,它就不说。并发消息的处理也容易混乱——如果两个用户同时发消息,怎么保证不串线?
OpenClaw的创新
OpenClaw的消息系统有三个核心设计:
泳道模型。每个会话是一条独立的"泳道"——同一用户的消息按顺序处理(防止"创建文件"和"读取文件"乱序),不同用户的消息并行处理(你的5分钟任务不会阻塞我的快速查询)。
心跳机制。Agent有自己的"生物钟"。你在HEARTBEAT.md里写下一个检查清单,系统会定期唤醒Agent来执行。如果没有需要关注的事,Agent静默返回HEARTBEAT_OK,不打扰你。如果有重要发现——比如你让它监控Stripe的收入仪表板——它会主动发消息告诉你。
分层容错。三层兜底机制:任务级(工具调用失败→重试或换方案)→ 会话级(任务失败→隔离影响,保持会话活跃)→ 服务级(底层服务崩溃→切换备用提供商或优雅降级)。
Agent不只是"你问它答"——它有自己的节律,能像一个真正的助手一样主动工作。
→ 详见第五章 消息循环
旧架构的局限
每接入一个消息平台,就要重写一套连接逻辑、消息解析、身份验证。N个平台意味着N倍的开发和维护成本。而且平台之间的身份是割裂的——你在Telegram里和Agent的对话,在Discord里看不到。
OpenClaw的创新
OpenClaw的Gateway(网关)像一位翻译官:

核心设计是适配器模式:每个平台实现一个ChannelPlugin接口,负责将平台特定的消息格式"翻译"成统一格式。要接入一个新平台?实现一个接口就够了,Agent核心一行代码都不用改。
更精妙的是优雅降级。Agent回复的内容通常是Markdown格式。Discord支持富文本卡片?翻译官就把Markdown转成精美的嵌入式消息。飞书支持交互按钮?翻译官就渲染出"确认/取消"按钮。纯文本平台?降级为简洁的文字。统一而不单调,多样而不混乱。
跨平台身份识别通过identityLinks配置实现——你在Telegram、Discord、Slack上是同一个人,Agent记得你在所有渠道的偏好。
→ 详见第六章 统一网关
旧架构的局限
Agent能力越强,潜在破坏力越大。一个能执行Shell命令的Agent,理论上可以rm -rf /删掉你的整个系统。完全禁止执行?那Agent就失去了存在的意义。
OpenClaw的创新
OpenClaw的安全哲学是:不是限制能力,而是给能力加上安全护栏。
三层纵深防御:
| 层级 | 防御对象 | 机制 |
|---|---|---|
| 文件系统沙箱 | 防止越权访问 | Agent只能在指定工作目录内操作 |
| 命令执行沙箱 | 防止危险命令 | Security模式(deny/allowlist/full) + Ask模式(确认机制) |
| 网络访问沙箱 | 防止恶意外联 | 白名单域名控制 |
以exec工具为例,它有三层安全模型:
jq、head、tail等安全命令可以直接执行这种设计让你可以渐进式地建立信任:从只读模式开始,逐步开放执行权限,最终在安全护栏的保护下放心地让Agent自主操作。
→ 详见第七章 安全沙箱
六个支柱不是六个独立模块,它们是一套有机联动的系统。理解它们如何协作,才能真正理解OpenClaw是什么。
我们用一条消息的完整旅程来说明:
你在WhatsApp发了一条消息:"帮我找出项目里所有的 console.log"
第一步:统一网关感知
消息进入统一网关。WhatsApp的消息格式与Telegram完全不同,但网关的ChannelPlugin把它翻译成统一的标准格式,打上用户身份标签,传入系统。这是Agent的"耳朵"。
第二步:消息循环调度
消息进入消息循环的命令队列。你的会话被分配到独立泳道——你的消息按顺序处理,不会跟其他用户的任务混在一起。心跳机制同时在后台跑着,定期检查有没有需要主动提醒你的事。
第三步:提示词系统装配
Agent Loop启动之前,提示词系统从磁盘读取最新的SOUL.md、AGENTS.md、TOOLS.md等文件,动态组装成完整的系统提示词。Agent此刻"知道"自己是谁、你是谁、有哪些工具可用、工作目录在哪里。这是ReAct循环的"燃料"。
第四步:ReAct循环运转
引擎启动。Agent读取你的消息(观察),推理出需要搜索文件(思考),决定调用exec工具执行grep命令(行动)。拿到结果后,把结果当作新的观察,继续思考——需不需要进一步分析?要不要整理输出格式?循环反复,直到任务完成。
第五步:安全沙箱过滤
每次调用工具,执行请求先经过安全沙箱的三层审查:命令在不在白名单?需不需要向你确认?目标文件在不在允许操作的目录内?沙箱拦截危险操作,放行合法操作,让Agent能做事但不会闯祸。
第六步:工具系统执行
通过安全审查的工具调用落地执行——exec跑grep命令搜索文件,read读取文件内容,edit修改代码。工具结果作为新的"观察"反馈给ReAct循环。
第七步:统一网关响应
ReAct循环生成最终回复(Markdown格式),由网关翻译成WhatsApp能正确显示的文本格式,发回给你。
整个链条如下:
用户消息 → 统一网关(感知,翻译格式) → 消息循环(调度,防并发混乱) → 提示词系统(装配上下文,注入灵魂) → ReAct循环(观察→思考→行动,反复迭代) → 安全沙箱(每次工具调用必经的安全门) → 工具系统(真正动手执行) → 结果回到 ReAct 循环,直到任务完成 → 统一网关(输出,翻译格式) → 用户收到回复
六个支柱缺一不可:没有网关,Agent听不到你说话;没有消息循环,并发请求会乱套;没有提示词系统,Agent不知道自己是谁;没有ReAct循环,Agent只能回答不能行动;没有沙箱,Agent的能力就是安全隐患;没有工具系统,思考永远停留在文字层面。
这就是"数字生命体"这个比喻的真正含义——不是各部件的堆砌,而是一套协同呼吸的有机系统。
OpenClaw的出现无疑是革命性的,虽然目前还在快速迭代,但是它所提出的思想框架已经被广泛接受,这一节我们的核心问题在于: OpenClaw改变了什么?我们如何适应这种改变?
到2026年3月,OpenClaw积累超过30万GitHub Stars,用60天打破了React用10年建立的记录。这种速度背后,是三个范式层面的结构性转变,以及全球范围内截然相反的两种反应。
三个转变
第一,从"对话"到"执行"。36kr把OpenClaw定义为"AI从回答问题的工具变成替人做事的操作系统"的起点。Steinberger在YC访谈中的判断是:"80%的应用会自然消亡。"当AI能直接操作文件、调用API、管理系统,大量只解决单一任务的App就失去了存在的理由。
第二,从"云端服务"到"本地自主"。Steinberger的立场很明确:"本地优先带来真正的能力解放,你的个人电脑就是最强大的AI服务器。"这与ChatGPT、Gemini的路线相反——你的数据不经过任何第三方服务器,Agent的行为完全由你定义。
第三,从"代码定义"到"文本定义"。Steinberger一个人,花10个月,做出了GitHub上增长最快的开源项目,而他自己说:"我不读我交付的代码。"这是"超级个体"概念的典型案例——当AI承担大部分实现工作,一个人能撬动的杠杆级别完全变了。
两种声音
热情方:Tesla前AI总监Andrej Karpathy称OpenClaw相关现象是"我见过的最接近科幻现实的东西";中国互联网把它戏称为"养虾"(源自龙虾吉祥物),近千人排队在腾讯深圳总部请工程师帮忙安装,腾讯随即推出五款兼容产品,百度、字节、MiniMax紧随其后。
质疑方:Communications of the ACM(美国计算机学会通讯)发文称之为"无处不在,且是一场等待发生的灾难"。Palo Alto Networks指出,能访问私人数据、能对外通信、又会接触不可信内容的Agent,构成安全上的"致命三角"。ClawJacked漏洞(CVE-2026-25253)一度让用户访问恶意网站就可能导致本地Agent被完全接管。还有成本现实——一位MacStories编辑第一个月花了3600美元。
中国的双重悖论
2026年3月11日工信部和国资委禁止政府机构和国企使用OpenClaw;三天后,深圳和无锡宣布补贴基于OpenClaw构建产品的企业。美国企业研究所Ryan Fedasiuk的解读是:"北京在捕获AI Agent经济的红利,同时把它隔离在党政体系的血管之外。"这不是矛盾,而是务实。
先说大局:坐办公室的也要被"机器化"了
当年工业革命把工人从田里赶到工厂,机器替代了体力活。现在Agent干的是同样的事,只不过这次轮到白领了。
有个数据很能说明问题:Klarna用700个Agent替代了700个客服,一年后CEO Sebastian Siemiatkowski公开承认"过度依赖AI导致服务质量下降",开始重新引入真人。这个故事的教训不是"AI不行",而是AI正在逼我们重新思考"什么叫行"——当Agent能处理80%的常规咨询时,剩下20%的复杂场景才是人类的价值所在。
更夸张的是Cursor——这个AI编程工具2025年销售额突破20亿美元,60%来自企业客户。它的CEO说现在35%的代码提交是AI自主完成的。不是什么"辅助编程",是AI在主动提交代码。
普通人:门槛从"会不会用软件"变成"说不说得清楚"
还记得学Excel函数的痛苦吗?Agent时代,这些都要进博物馆了。
OpenAI的Operator已经能帮你:打开浏览器、搜索航班、比价、填表、完成支付——全程不需要你碰鼠标。订机票从原来的12步变成1句话:"下周去东京,便宜优先。"
但这里有个陷阱:门槛降低不等于要求降低。以前不会用软件,你知道自己不会;现在Agent帮你做了,但做得对不对,你得能判断。就像有个实习生帮你写报告,写得很快,但有没有胡说八道,你得自己把关。
程序员:从"码农"升级成"系统架构师",工资可能还更高
Andrej Karpathy说以后80%的代码AI生成。听起来吓人?但看看GitHub Copilot的数据:代码接受率(Acceptance Rate)才30-40%,也就是说AI生成的代码大部分被拒绝了。
为什么?因为决定系统能不能用的,不是代码量,是边界感。
Devin(那个号称"全球首个AI软件工程师")在SWE-bench基准测试上的表现确实惊艳,但仔细看:它解决的是明确定义的问题,而真实世界的需求往往是模糊的——"做个好看点的页面",什么叫"好看"?
所以程序员的核心竞争力变了:
Cursor的35%自主提交率背后,是剩下65%需要人类判断。这部分才是高价值工作。
公司老板:22%的员工已经在偷偷用Agent了
这个数字来自多个行业调研。不是"影子IT"的重演,是责任链条真的断了。
以前出问题能找到责任人:谁写的脚本、谁批的上线。现在呢?
更麻烦的是"幻觉"问题——大模型天生会胡说八道,这是概率模型的本质决定的。在客服场景,说错一句可能没关系;在金融交易场景,一个错误就是真金白银的损失。
所以企业真正需要的不是更聪明的AI,而是:
这些东西听起来很无聊,但比你的AI战略还重要。
整个行业:现在是大佬们抢"标准"的时候
Anthropic推MCP(Model Context Protocol),OpenAI搞multi-agent,Google弄A2A——看出来了吗?他们争的不是谁的产品好用,是谁定规矩。
MCP被称为"AI界的USB-C接口",核心价值是"即插即用":开发一次工具,所有AI模型通用。Anthropic已经把它捐给开源基金会,摆明了要当行业标准。
这就像当年:
对普通人来说,这意味着选边站队的时刻到了。用谁家的协议,可能决定了你未来十年的生态位。
最后说个反直觉的事:AI来了,人类反而更忙了
有研究发现,AI工具普及后,知识工作者的总工作时间没有减少,反而增加了。为什么?
因为AI把"做"的时间省了,但"检查"和"补救"的时间增加了。就像有了洗衣机,你不用手洗了,但你得检查衣服有没有洗干净、有没有洗坏、分类对不对。
Agent时代,人类的角色从"执行者"变成"质量守门员"。这不是坏事,但意味着我们需要新的技能——不是操作技能,是判断技能。
从"工具用户"转变为"委托方"
这是最根本的认知转型,也是最难建立的习惯:
| 角色 | 关注点 | 思维方式 |
|---|---|---|
| 工具用户 | 这个工具能做什么? | 功能导向 |
| 委托方 | 我的目标是什么?哪些决定需要我做? | 目标导向 |
"我看到太多人发现Agent有多强大之后,就一头扎进去,试图让它更强大——结果越建越复杂,最终只是在建工具,而不是在用工具做有价值的事。"——Peter Steinberger
避开这个陷阱,只需要在启动每个新Agent任务前问自己:我做这件事,是为了腾出时间做更重要的事,还是只是因为可以做所以做?
学会写"可测试的规格说明"
编辑Markdown文件本身很简单,难的是写出高质量的内容。好配置和差配置的区别在于精确性和可测试性:
❌ 差的写法:
请你谨慎行事。
✅ 好的写法:
在执行任何会修改或删除文件的操作之前,先列出将受影响的 具体文件路径,等待我确认后再执行。
前者依赖Agent自己理解"谨慎"的含义;后者定义了一个可以被观察和验证的具体行为规则。
写好规格说明的核心能力是边缘情况思维——不问"正常情况下Agent会怎么做",而问:
在那些边缘情况里,规格说明的质量才真正显现。
用"可逆性"来校准信任边界
按操作的可逆程度划分是最实用的信任框架,且直接对应OpenClaw的Security模式和Ask模式:
| 可逆程度 | 典型操作 | 推荐策略 | 对应配置 |
|---|---|---|---|
| 完全可逆 | 读取、分析、起草 | Agent自由行动,无需确认 | security: full, ask: off |
| 部分可逆 | 创建文件、发送非关键消息 | Agent行动,完整记录日志 | security: allowlist |
| 不可逆 | 删除、发送给外部方、涉及财务 | 必须人工确认后才执行 | ask: always |
从第一类开始,在有充分信心后逐步开放第二类和第三类,是目前最稳健的实践路径。
关注底层协议,而非具体产品
OpenClaw今天是最热门的运行时,明天可能出现更好的替代品。比追版本更重要的,是理解正在成型的底层基础设施:
| 标准/协议 | 主导方 | 作用 |
|---|---|---|
| MCP(Model Context Protocol) | Anthropic | Agent与外部工具标准化对接的基础协议 |
| Multi-Agent通信框架 | OpenAI | 定义Agent之间协作方式 |
| ClawHub安全审查标准 | 开源社区 | 技能市场的可信度保障 |
这些底层基础设施的走向,比任何单一产品的功能迭代都更值得关注。
核心洞察:
历史的必然。从对话模型到个人自主Agent,每一步演化都在解决上一代的核心局限。OpenClaw不是凭空出现的,它是AI从"能说"到"能做"这条演化链上的自然延伸。
六大支柱的协同。ReAct循环是引擎,提示词系统是灵魂,工具系统是手脚,消息循环是心跳,统一网关是感官,安全沙箱是免疫系统——六者缺一不可,共同构成一个完整的"数字生命体"。
方向已定,细节未稳。个人自主Agent的大方向已经明确,大厂纷纷跟进,但具体实现仍在快速迭代。理解底层设计思想,比追逐具体工具更重要。
阅读指南:
下一步:第二章 ReAct循环——深入探讨Agent的核心引擎,理解"观察-思考-行动"的永动机制。