我在几乎每个第一次构建 AI 智能体的团队身上都注意到一个规律。他们在最初几周里痴迷于 token 成本。他们 A/B 测试系统提示。他们实现缓存。他们把简单查询从 GPT-4 切换到 GPT-4o-mini。他们构建仪表板,把每条消息的成本精确到小数点后四位。
然后云账单来了。
比预期的高。有时高出很多。当他们深入研究时,token 成本正好在他们预测的地方。让他们意外的是其他一切——因为智能体运行时不断被 OOM 杀死而不得不升级的 VPS,追查破坏生产环境的依赖冲突花费的工程时间,抱怨机器人"服务器重启后响应很慢"的客户。
Token 成本是冰山露出水面的部分。其余的在水下,而且比大多数人意识到的要大。
AI 智能体成本的五个层次
在生产环境中运行 AI 智能体不是单一成本——它是五个不同成本层次的叠加,每个都有自己的动态和优化策略。
第一层是 token 成本:你为每次请求向 AI 提供商支付的费用。这是每个人都在谈论的那个,是最先被优化的那个,在很多情况下,一旦你考虑到其他一切,它是你总账单中最小的部分。
第二层是计算成本:托管你的智能体运行时的 RAM、CPU 和服务器基础设施。这是第一个意外通常出现的地方。空闲时占用 1.2GB RAM 的运行时不只是托管成本更高——它约束了你在下游做出的每一个架构决策。你不能在廉价硬件上运行它。你不能在没有严重基础设施预算的情况下给每个客户他们自己的专用实例。你不能将其部署到靠近用户的边缘节点。
第三层是冷启动成本,这个很狡猾,因为它不会出现在任何发票上。冷启动时间是接收消息和你的智能体准备好处理它之间的延迟。当这个延迟是 8 秒时,一些用户会认为机器人坏了然后离开。那是流失,流失有成本——它只是不出现在你的 AWS 账单上。
第四层是运营成本:花在监控、调试、依赖更新和事故响应上的工程时间。有 1,200 个 npm 依赖的运行时不只是有更大的攻击面——它有更大的维护面。有人必须保持这些包更新,调查破坏性变更,并在传递依赖引入漏洞时响应。
第五层是机会成本:因为你的基础设施已经满负荷而无法构建的东西。这是最难量化的,也是长期来看最昂贵的。当你的智能体运行时空闲时消耗服务器 60% 的 RAM,你就不会在试验多智能体架构了。你不会部署到边缘节点。你不会在没有重大基础设施投资的情况下扩展到 100 个客户。运行时的资源需求变成了产品约束。
大多数团队优化第一层,忽略第二到第五层。那才是钱真正去的地方。
RAM 税:1.2GB 真正的代价
让我把计算成本说得具体一点,因为这些数字比大多数人预期的更戏剧性。
OpenClaw 空闲时大约占用 1.2GB RAM。这不是 bug 或配置错误——这是运行一个有大型依赖树的 Node.js 应用程序的自然结果。V8 JavaScript 引擎、Node.js 运行时和 1,200+ npm 包都需要在你的智能体处理单条消息之前驻留在内存中。
在云基础设施上,这体现如下。1GB RAM VPS——大多数提供商上最便宜的层级,通常每月 $5-6——根本无法运行 OpenClaw。Linux OOM 杀手会在它完成启动之前终止进程。你会在日志中看到一个神秘的退出代码,花一个小时调试,然后才意识到问题就是你没有足够的 RAM。
2GB RAM VPS($10-12/月)技术上可以运行 OpenClaw,但你在空闲时使用了 60% 的可用内存。操作系统、你的监控代理、你的日志传输器,以及你运行的任何其他服务都在争夺剩余的 800MB。在负载下,你会看到 swap 使用、延迟峰值,以及流量突发期间偶尔的 OOM 杀死。
4GB RAM VPS($20-24/月)是 OpenClaw 实际运行舒适的地方。你每年支付 $240-288,其中相当大一部分只是在 OpenClaw 等待消息时将其运行时保持在内存中。
ZeroClaw,用 Rust 构建,空闲时大约占用 4MB RAM。不是 4GB——4 兆字节。同样那个 $5/月 1GB VPS 运行 ZeroClaw,99.6% 的 RAM 仍然可用于你的实际工作负载。仅托管方面的年度节省:$84 到 $228,取决于你的提供商。
对于运行多个智能体的团队——十个实例服务十个企业客户,或者一百个实例服务一百个用户——数学变得戏剧性。十个 OpenClaw 实例需要一台 $100+/月 的专用服务器。十个 ZeroClaw 实例舒适地放在一台 $5/月 的 VPS 上,还有余量。
冷启动:不出现在发票上的成本
冷启动时间在两种比大多数团队意识到的更常见的场景中很重要。
第一种是无服务器和边缘部署。如果你的智能体在空闲时缩减到零——这是大多数无服务器平台上的默认行为,也是低流量部署唯一经济合理的方法——每次空闲期后的第一个请求都要付出冷启动代价。对于 OpenClaw,这个代价大约是 8 秒。对于刚发送消息正在等待响应的用户来说,8 秒是永恒。在用户体验研究中,超过 3 秒的响应时间会导致可测量的放弃率增加。在 8 秒时,许多用户会认为服务已关闭并停止尝试。
第二种场景是重启。崩溃会发生。更新需要重启。服务器为内核补丁重启。10 毫秒内重启的智能体实际上始终可用——用户永远不会注意到间隙。需要 8 秒重启的智能体会创造一个不可用窗口,在一年的时间里累积起来就是数小时的停机时间。
但冷启动真正复合的场景是多智能体编排。当智能体调用其他智能体时——这在生产 AI 系统中越来越常见——链中的每一跳都可能触发冷启动。一个链接三个 OpenClaw 智能体的工作流在任何实际工作开始之前增加了多达 24 秒的启动开销。三个 ZeroClaw 智能体总共增加 30 毫秒。感觉即时的工作流和感觉坏掉的工作流之间的差异,通常只是运行时的冷启动时间。
供参考:OpenClaw 启动需要约 8 秒(Node.js 启动 + 模块加载),PicoClaw 需要约 3 秒(Python 解释器 + 导入),ZeroClaw 需要不到 10 毫秒(原生二进制,无需初始化运行时)。
依赖税:1,200 个包及其真实代价
OpenClaw 的 node_modules 目录包含超过 1,200 个包。其中大多数是传递依赖——你的包所依赖的包,你从未明确选择,甚至可能不知道存在。
每一个都是真实的、持续的成本。从安全角度来看,每个包都是潜在的漏洞。2026 年初的 ClawHub 供应链攻击正是利用了这一点:恶意包上传到 npm,作为流行 OpenClaw 插件的传递依赖被引入。当你的运行时有 1,200 个依赖时,你有 1,200 个潜在攻击向量,审计所有这些不是一个现实的选项。
从维护角度来看,保持 1,200 个包相互兼容是一份兼职工作。npm 的语义版本控制应该防止次要和补丁更新中的破坏性变更,但实际上包会破坏。API 会变化。对等依赖要求会冲突。每次 `npm update` 都是一个潜在的调试会话,这些会话每月累积成数小时。
从部署角度来看,每次新服务器安装都运行 `npm install` 并下载数百兆字节的包。在慢速连接或资源受限的环境中,这需要几分钟。在快速连接上,它仍然比应该的慢,而且它引入了一个窗口,你的部署可能因为网络故障或注册表中断而失败。
ZeroClaw 作为单个静态链接二进制文件发布。没有包管理器。没有锁文件。没有依赖解析。没有 node_modules 目录。通过将一个 12MB 文件复制到你的服务器并运行它来部署。这就是整个部署过程。
算一算
对于每天处理约 1,000 条消息的单个永远在线 AI 智能体:
| 成本类别 | OpenClaw | ZeroClaw | |--------------|----------|----------| | 托管(VPS) | $288/年(需要 4GB) | $60/年(1GB 足够) | | Token 成本 | $180/年 | $180/年 | | 工程维护 | ~$1,200/年(每月 2 小时,$50/小时) | ~$150/年(每月 15 分钟) | | 冷启动影响 | ~$200/年(估计流失) | 可忽略不计 | | 总计 | ~$1,868/年 | ~$390/年 |
Token 成本是相同的——你无论如何都在使用同一个 AI 提供商。$1,478 的年度差距完全是基础设施和运营开销。这不是舍入误差。这是一个经济上可行的项目和一个悄悄亏损直到有人取消它的项目之间的差距。
架构影响
你的智能体运行时的资源特征不只是运营细节——它们塑造了你能构建什么。
需要 4GB RAM 的运行时不能在树莓派上运行。不能在 $5/月 VPS 上运行。不能部署到靠近用户的边缘节点。不能在没有严重基础设施预算的情况下给每个客户一个专用实例。这些约束中的每一个都是在你写下第一行应用代码之前,由你的运行时资源需求为你做出的产品决策。
使用 4MB RAM 并在 10 毫秒内启动的运行时可以在任何地方运行。在 $10 的单板机上。在 $5/月 VPS 上。在 50 个城市的边缘节点上。作为你 1,000 个客户中每一个的专用实例,全部在同一台服务器上。架构成为一种选择而不是约束。
最便宜的 token 是你不浪费在等待智能体启动上的那个。但最昂贵的基础设施决策是那个悄悄限制你多年来能构建什么的决策。