AIエージェントの隠れたコスト：RAMとコールドスタートが思った以上に重要な理由

初めてAIエージェントを構築するほぼすべてのチームに見られるパターンがある。最初の数週間はトークンコストに執着する。システムプロンプトをA/Bテストする。キャッシングを実装する。シンプルなクエリにはGPT-4からGPT-4o-miniに切り替える。メッセージあたりのコストを小数点4桁まで追跡するダッシュボードを構築する。

そしてクラウドの請求書が届く。

予想より高い。時には大幅に高い。掘り下げると、トークンコストは予測通りだ。サプライズはそれ以外のすべて——エージェントランタイムがOOMキルされ続けてアップグレードが必要になったVPS、本番環境を壊した依存関係の競合を追いかけるのに費やしたエンジニアリング時間、サーバー再起動後に「ボットが応答するのに永遠にかかる」と不満を言った顧客。

トークンコストは氷山の見える部分だ。残りは水面下にあり、ほとんどの人が気づくより大きい。

AIエージェントコストの5つのレイヤー

本番でAIエージェントを動かすことは単一のコストではない——それぞれ独自のダイナミクスと最適化戦略を持つ5つの異なるコストレイヤーのスタックだ。

第一レイヤーはトークンコスト：リクエストごとにAIプロバイダーに支払うもの。これが誰もが話すもので、最初に最適化されるもので、そして他のすべてを考慮すると多くの場合総請求書の最小部分だ。

第二レイヤーはコンピュートコスト：エージェントランタイムをホストするRAM、CPU、サーバーインフラ。これが最初のサプライズが通常来る場所だ。アイドル時に1.2GBのRAMを使うランタイムは、ホストするのにより多くのコストがかかるだけでなく——下流のすべてのアーキテクチャ上の決定を制約する。安いハードウェアで動かせない。深刻なインフラ予算なしに各顧客に専用インスタンスを与えられない。ユーザーに近いエッジノードにデプロイできない。

第三レイヤーはコールドスタートコストで、これはどの請求書にも現れないので厄介だ。コールドスタートタイムはメッセージを受信してからエージェントが処理する準備ができるまでの遅延だ。その遅延が8秒のとき、一部のユーザーはボットが壊れていると思って去る。それはチャーンで、チャーンにはコストがある——ただしAWSの請求書には現れない。

第四レイヤーは運用コスト：モニタリング、デバッグ、依存関係の更新、インシデント対応に費やすエンジニアリング時間。1,200のnpm依存関係を持つランタイムは大きな攻撃面を持つだけでなく——大きなメンテナンス面も持つ。誰かがそれらのパッケージを更新し続け、破壊的変更を調査し、推移的依存関係が脆弱性を導入したときに対応する必要がある。

第五レイヤーは機会コスト：インフラがすでに限界に達しているために構築できないもの。これは定量化が最も難しく、長期的に最も高価だ。エージェントランタイムがアイドル時にサーバーのRAMの60%を消費するとき、マルチエージェントアーキテクチャを実験していない。エッジノードにデプロイしていない。大きなインフラ投資なしに100人の顧客にスケールしていない。ランタイムのリソース要件が製品の制約になる。

ほとんどのチームはレイヤー1を最適化してレイヤー2〜5を無視する。そこに実際にお金が行く。

RAMタックス：1.2GBが実際にかかるコスト

OpenClawはアイドル時に約1.2GBのRAMを使う。これはバグや設定ミスではない——大きな依存ツリーを持つNode.jsアプリケーションを動かすことの自然な結果だ。V8 JavaScriptエンジン、Node.jsランタイム、1,200以上のnpmパッケージはすべて、エージェントが単一のメッセージを処理する前にメモリに存在する必要がある。

クラウドインフラでは、これは次のように展開する。1GB RAMのVPS——ほとんどのプロバイダーで最安のティア、通常月5〜6ドル——はOpenClawをまったく動かせない。LinuxのOOMキラーは起動を終える前にプロセスを終了させる。ログに謎めいた終了コードとして現れ、問題が単純にRAM不足であることに気づく前に1時間デバッグに費やす。

2GB RAMのVPS（月10〜12ドル）は技術的にOpenClawを動かせるが、アイドル時に利用可能なメモリの60%を使っている。OS、モニタリングエージェント、ログシッパー、動かしている他のサービスが残りの800MBを奪い合う。負荷がかかると、スワップ使用量、レイテンシスパイク、トラフィックバースト時の時折のOOMキルが見られる。

4GB RAMのVPS（月20〜24ドル）がOpenClawが実際に快適に動く場所だ。年間240〜288ドルを支払っていて、そのコストの大部分はメッセージを待つ間OpenClawのランタイムをメモリに保持するためだけだ。

RustでビルドされたZeroClawはアイドル時に約4MBのRAMを使う。4GBではなく——4メガバイトだ。同じ5ドル/月の1GB VPSがZeroClawを動かし、RAMの99.6%がまだ実際のワークロードに使える。ホスティングだけの年間節約：プロバイダーによって84〜228ドル。

10人の企業顧客のために10インスタンス、または100人のユーザーのために100インスタンスを動かすチームにとって、計算は劇的になる。10のOpenClawインスタンスには月100ドル以上の専用サーバーが必要だ。10のZeroClawインスタンスは余裕を持って5ドル/月のVPSに収まる。

コールドスタート：請求書に現れないコスト

コールドスタートタイムは、ほとんどのチームが気づくより一般的な2つのシナリオで重要だ。

最初はサーバーレスとエッジデプロイだ。エージェントがアイドル時にゼロにスケールする場合——これはほとんどのサーバーレスプラットフォームのデフォルト動作で、低トラフィックデプロイの唯一の経済的に合理的なアプローチだ——アイドル期間後の最初のリクエストはコールドスタートペナルティを支払う。OpenClawでは、そのペナルティは約8秒だ。メッセージを送ってレスポンスを待っているユーザーにとって、8秒は永遠だ。UXリサーチでは、3秒を超えるレスポンスタイムは離脱の測定可能な増加を引き起こす。8秒では、多くのユーザーがサービスがダウンしていると思って試みるのをやめる。

第二のシナリオは再起動だ。クラッシュは起きる。アップデートには再起動が必要だ。サーバーはカーネルパッチのために再起動する。10ミリ秒で再起動するエージェントは事実上常に利用可能だ——ユーザーはギャップに気づかない。8秒かかるエージェントは、1年間で合計すると何時間もの停止時間になる利用不可能なウィンドウを作る。

しかしコールドスタートが本当に積み重なるシナリオはマルチエージェントオーケストレーションだ。エージェントが他のエージェントを呼び出すとき——本番AIシステムでますます一般的になっている——チェーンの各ホップがコールドスタートをトリガーする可能性がある。3つのOpenClawエージェントをチェーンするワークフローは、実際の作業が始まる前に合計24秒の起動オーバーヘッドを追加する。3つのZeroClawエージェントは合計30ミリ秒を追加する。

参考：OpenClawは起動に約8秒かかる（Node.js起動+モジュールロード）、PicoClawは約3秒（Pythonインタープリター+インポート）、ZeroClawは10ミリ秒未満（ネイティブバイナリ、初期化するランタイムなし）。

依存関係タックス：1,200パッケージと実際のコスト

OpenClawのnode_modulesディレクトリには1,200以上のパッケージが含まれている。ほとんどは推移的依存関係——あなたのパッケージが依存するパッケージで、明示的に選んだことがなく、存在すら知らないかもしれないもの。

セキュリティの観点から、すべてのパッケージは潜在的な脆弱性だ。2026年初頭のClawHubサプライチェーン攻撃はまさにこれを悪用した：npmにアップロードされた悪意あるパッケージが、人気のあるOpenClawプラグインの推移的依存関係として取り込まれた。1,200の依存関係を持つランタイムには1,200の潜在的な攻撃ベクターがあり、それらすべてを監査することは現実的な選択肢ではない。

ZeroClawは単一の静的リンクバイナリとして出荷される。パッケージマネージャーなし。ロックファイルなし。依存関係解決なし。node_modulesディレクトリなし。1つの12MBファイルをサーバーにコピーして実行することでデプロイする。それがデプロイプロセス全体だ。

数字を計算する

1日約1,000メッセージを処理する常時稼働の単一AIエージェントの場合：

| コストカテゴリ | OpenClaw | ZeroClaw | |--------------|----------|----------| | ホスティング（VPS） | 288ドル/年（4GB必要） | 60ドル/年（1GBで十分） | | トークンコスト | 180ドル/年 | 180ドル/年 | | エンジニアリングメンテナンス | ~1,200ドル/年（月2時間×50ドル/時） | ~150ドル/年（月15分） | | コールドスタートの影響 | ~200ドル/年（推定チャーン） | 無視できる | | 合計 | ~1,868ドル/年 | ~390ドル/年 |

トークンコストは同一——どちらも同じAIプロバイダーを使っている。1,478ドルの年間ギャップは完全にインフラと運用オーバーヘッドだ。これは丸め誤差ではない。経済的に実行可能なプロジェクトと、誰かがキャンセルするまで静かにお金を失い続けるプロジェクトの違いだ。

アーキテクチャへの影響

エージェントランタイムのリソース特性は単なる運用上の詳細ではない——何を構築できるかを形作る。

4GBのRAMが必要なランタイムはRaspberry Piで動かせない。5ドル/月のVPSで動かせない。ユーザーに近いエッジノードにデプロイできない。大きなインフラ予算なしに各顧客に専用インスタンスとして与えられない。これらの制約のそれぞれは、アプリケーションコードを1行も書く前に、ランタイムのリソース要件によってあなたのために行われた製品上の決定だ。

4MBのRAMを使い10ミリ秒で起動するランタイムはどこでも動かせる。10ドルのシングルボードコンピューターで。5ドル/月のVPSで。50都市のエッジノードで。同じサーバー上の1,000人の顧客それぞれの専用インスタンスとして。アーキテクチャは制約ではなく選択になる。

最も安いトークンはエージェントの起動を待つ間に無駄にしないものだ。しかし最も高価なインフラ上の決定は、何年もの間何を構築できるかを静かに制限するものだ。