我在幾乎每個第一次建立 AI 代理的團隊身上都注意到一個模式。他們在前幾週花時間執著於 token 費用。他們對系統提示做 A/B 測試。他們實作快取。他們對簡單查詢從 GPT-4 切換到 GPT-4o-mini。他們建立儀表板,將每條訊息的成本追蹤到小數點後四位。
然後雲端帳單來了。
比預期的高。有時高出很多。當他們深入研究時,token 費用正好在他們預測的地方。驚喜是其他所有東西——因為代理執行環境不斷被 OOM 殺死而不得不升級的 VPS、追蹤破壞生產環境的相依性衝突所花費的工程時間、抱怨機器人「在伺服器重新啟動後需要很長時間才能回應」的客戶。
Token 費用是冰山的可見部分。其餘的在水面下,而且比大多數人意識到的要大。
AI 代理成本的五個層次
在生產環境中執行 AI 代理不是單一成本——它是五個不同成本層次的堆疊,每個都有自己的動態和優化策略。
第一層是 token 費用:你向 AI 供應商支付的每次請求費用。這是每個人都在談論的那個,是最先被優化的那個,在許多情況下,一旦你考慮到其他所有因素,它是你總帳單中最小的部分。
第二層是運算費用:託管你的代理執行環境的記憶體、CPU 和伺服器基礎設施。這是第一個驚喜通常出現的地方。一個閒置時使用 1.2GB 記憶體的執行環境不只是託管費用更高——它限制了你在下游做出的每一個架構決策。你不能在廉價硬體上執行它。你不能在沒有嚴重基礎設施預算的情況下給每個客戶他們自己的專用實例。你不能將它部署到靠近使用者的邊緣節點。
第三層是冷啟動費用,這個很狡猾,因為它不會出現在任何發票上。冷啟動時間是從接收訊息到你的代理準備好處理它之間的延遲。當這個延遲是 8 秒時,一些使用者會認為機器人壞了然後離開。那是流失,而流失有成本——它只是不出現在你的 AWS 帳單上。
第四層是營運費用:花在監控、除錯、相依性更新和事件回應上的工程時間。一個有 1,200 個 npm 相依性的執行環境不只是有更大的攻擊面——它有更大的維護面。有人必須讓這些套件保持更新,調查重大變更,並在傳遞相依性引入漏洞時做出回應。
第五層是機會成本:因為你的基礎設施已經滿載而無法建立的東西。這是最難量化的,從長遠來看也是最昂貴的。當你的代理執行環境在閒置時消耗伺服器 60% 的記憶體時,你不會在嘗試多代理架構。你不會部署到邊緣節點。你不會在沒有大量基礎設施投資的情況下擴展到 100 個客戶。執行環境的資源需求成為產品限制。
大多數團隊優化第一層而忽略第二到第五層。那才是錢真正去的地方。
記憶體稅:1.2GB 真正的成本
讓我把運算費用說得具體一點,因為這些數字比大多數人預期的更戲劇性。
OpenClaw 閒置時大約使用 1.2GB 記憶體。這不是 bug 或設定錯誤——它是在有大型相依性樹的 Node.js 應用程式上執行的自然結果。V8 JavaScript 引擎、Node.js 執行環境和 1,200 多個 npm 套件都需要在你的代理處理單一訊息之前存在於記憶體中。
在雲端基礎設施上,這表現如下。1GB 記憶體 VPS——大多數供應商上最便宜的層級,通常每月 5-6 美元——根本無法執行 OpenClaw。Linux OOM 殺手會在它完成啟動之前終止程序。你會在日誌中看到它是一個神秘的退出碼,你會花一個小時除錯,然後才意識到問題只是你沒有足夠的記憶體。
2GB 記憶體 VPS(每月 10-12 美元)技術上可以執行 OpenClaw,但你在閒置時使用了 60% 的可用記憶體。作業系統、你的監控代理、你的日誌傳送器,以及你正在執行的任何其他服務都在爭奪剩餘的 800MB。在負載下,你會看到 swap 使用量、延遲峰值,以及在流量突發期間偶爾的 OOM 殺死。
4GB 記憶體 VPS(每月 20-24 美元)是 OpenClaw 實際上可以舒適執行的地方。你每年支付 240-288 美元,其中很大一部分成本只是在 OpenClaw 等待訊息時將其執行環境保存在記憶體中。
ZeroClaw 用 Rust 建立,閒置時大約使用 4MB 記憶體。不是 4GB——4 百萬位元組。同樣的 5 美元/月 1GB VPS 執行 ZeroClaw,仍有 99.6% 的記憶體可用於你的實際工作負載。僅在託管上的年度節省:84 到 228 美元,取決於你的供應商。
對於執行多個代理的團隊——十個實例給十個企業客戶,或一百個實例給一百個使用者——數學變得很戲劇性。十個 OpenClaw 實例需要一台每月 100 美元以上的專用伺服器。十個 ZeroClaw 實例可以舒適地放在一台 5 美元/月的 VPS 上,還有空間。
冷啟動:不出現在發票上的費用
冷啟動時間在兩種比大多數團隊意識到的更常見的場景中很重要。
第一種是無伺服器和邊緣部署。如果你的代理在閒置時縮減到零——這是大多數無伺服器平台上的預設行為,也是低流量部署唯一在經濟上合理的方法——每個閒置期後的第一個請求都要付出冷啟動代價。對於 OpenClaw,這個代價大約是 8 秒。對於剛發送訊息正在等待回應的使用者來說,8 秒是永恆。在使用者體驗研究中,超過 3 秒的回應時間會導致可測量的放棄率增加。在 8 秒時,許多使用者會認為服務已關閉並停止嘗試。
第二種場景是重新啟動。崩潰會發生。更新需要重新啟動。伺服器因核心修補而重新開機。在 10 毫秒內重新啟動的代理實際上始終可用——使用者永遠不會注意到間隙。需要 8 秒才能重新啟動的代理會創造一個不可用的視窗,在一年的過程中加起來就是數小時的停機時間。
但冷啟動真正複合的場景是多代理協調。當代理呼叫其他代理時——這在生產 AI 系統中越來越常見——鏈中的每一跳都可能觸發冷啟動。一個鏈接三個 OpenClaw 代理的工作流程在任何實際工作開始之前增加了多達 24 秒的啟動開銷。三個 ZeroClaw 代理總共增加 30 毫秒。感覺即時的工作流程和感覺壞掉的工作流程之間的差異通常只是執行環境的冷啟動時間。
供參考:OpenClaw 需要約 8 秒啟動(Node.js 啟動 + 模組載入),PicoClaw 需要約 3 秒(Python 直譯器 + 匯入),ZeroClaw 需要不到 10 毫秒(原生二進位檔,沒有執行環境需要初始化)。
相依性稅:1,200 個套件及其真正的成本
OpenClaw 的 node_modules 目錄包含超過 1,200 個套件。其中大多數是傳遞相依性——你的套件所依賴的套件,你從未明確選擇,甚至可能不知道存在。
每一個都是真實的、持續的成本。從安全角度來看,每個套件都是潛在的漏洞。2026 年初的 ClawHub 供應鏈攻擊正是利用了這一點:惡意套件上傳到 npm,作為熱門 OpenClaw 外掛的傳遞相依性被引入。當你的執行環境有 1,200 個相依性時,你有 1,200 個潛在的攻擊向量,稽核所有這些不是一個現實的選項。
從維護角度來看,讓 1,200 個套件相互相容是一份兼職工作。npm 的語義版本控制應該防止次要和修補更新中的重大變更,但實際上套件會出問題。API 會改變。對等相依性需求會衝突。每次 `npm update` 都是一個潛在的除錯會話,這些會話每月累積成數小時。
從部署角度來看,每次新的伺服器安裝都會執行 `npm install` 並下載數百兆位元組的套件。在慢速連線或資源受限的環境中,這需要幾分鐘。在快速連線上,它仍然比應該的時間長,而且它引入了一個視窗,你的部署可能因為網路故障或登錄檔中斷而失敗。
ZeroClaw 以單一靜態連結的二進位檔形式發布。沒有套件管理器。沒有鎖定檔。沒有相依性解析。沒有 node_modules 目錄。通過將一個 12MB 的檔案複製到你的伺服器並執行它來部署。這就是整個部署過程。
算算數字
對於每天處理大約 1,000 條訊息的單一全天候 AI 代理:
| 成本類別 | OpenClaw | ZeroClaw | |--------------|----------|----------| | 託管(VPS) | 288 美元/年(需要 4GB) | 60 美元/年(1GB 足夠) | | Token 費用 | 180 美元/年 | 180 美元/年 | | 工程維護 | ~1,200 美元/年(每月 2 小時,50 美元/小時) | ~150 美元/年(每月 15 分鐘) | | 冷啟動影響 | ~200 美元/年(估計流失) | 可忽略不計 | | 總計 | ~1,868 美元/年 | ~390 美元/年 |
Token 費用是相同的——你無論如何都在使用同一個 AI 供應商。1,478 美元的年度差距完全是基礎設施和營運開銷。這不是捨入誤差。這是一個在經濟上可行的專案和一個悄悄流血直到有人取消它的專案之間的差異。
架構影響
你的代理執行環境的資源特性不只是營運細節——它們塑造了你可以建立什麼。
需要 4GB 記憶體的執行環境不能在 Raspberry Pi 上執行。它不能在 5 美元/月的 VPS 上執行。它不能部署到靠近使用者的邊緣節點。在沒有大量基礎設施預算的情況下,它不能作為每個客戶的專用實例提供。這些限制中的每一個都是在你寫下一行應用程式碼之前,由你的執行環境的資源需求為你做出的產品決策。
使用 4MB 記憶體並在 10 毫秒內啟動的執行環境可以在任何地方執行。在 10 美元的單板電腦上。在 5 美元/月的 VPS 上。在 50 個城市的邊緣節點上。作為你 1,000 個客戶中每一個的專用實例,全部在同一台伺服器上。架構成為一種選擇而不是限制。
最便宜的 token 是你在等待代理啟動時不浪費的那個。但最昂貴的基礎設施決策是那個在未來幾年悄悄限制你可以建立什麼的決策。