Há um padrão que percebi em quase todos os times que constroem agentes de IA pela primeira vez. Eles passam as primeiras semanas obcecados com custos de tokens. Fazem A/B testing de system prompts. Implementam cache. Trocam de GPT-4 para GPT-4o-mini para consultas simples. Constroem dashboards rastreando custo por mensagem até quatro casas decimais.
Aí chega a fatura da nuvem.
É mais alta do que o esperado. Às vezes significativamente mais alta. E quando analisam, os custos de tokens estão exatamente onde previram. A surpresa é todo o resto.
As cinco camadas de custo dos agentes de IA
A primeira camada são os custos de tokens: o que você paga ao provedor de IA por requisição. Essa é a que todo mundo fala, a que é otimizada primeiro, e em muitos casos, a menor parte da sua fatura total.
A segunda camada são os custos de computação: a RAM, CPU e infraestrutura de servidor que hospeda seu runtime de agente. Um runtime que fica ocioso a 1,2 GB de RAM não só custa mais para hospedar —restringe cada decisão arquitetural que você toma depois.
A terceira camada são os custos de cold start, e essa é sorrateira porque não aparece em nenhuma fatura. O tempo de cold start é o atraso entre receber uma mensagem e seu agente estar pronto para processá-la. Quando esse atraso é de 8 segundos, alguns usuários vão assumir que o bot está quebrado e ir embora.
A quarta camada são os custos operacionais: as horas de engenharia gastas em monitoramento, depuração, atualizações de dependências e resposta a incidentes. Um runtime com 1.200 dependências npm não só tem uma superfície de ataque maior —tem uma superfície de manutenção maior.
A quinta camada são os custos de oportunidade: as coisas que você não consegue construir porque sua infraestrutura já está no limite. Quando seu runtime de agente consome 60% da RAM do servidor em repouso, você não está experimentando com arquiteturas multi-agente.
O imposto de RAM: o que 1,2 GB realmente custa
O OpenClaw fica ocioso a aproximadamente 1,2 GB de RAM. Na infraestrutura em nuvem, isso se traduz assim: um VPS de 1 GB de RAM —o nível mais barato na maioria dos provedores, tipicamente 5-6 USD/mês— não consegue rodar o OpenClaw. Um VPS de 2 GB de RAM (10-12 USD/mês) pode tecnicamente rodar o OpenClaw, mas você está usando 60% da memória disponível em repouso. Um VPS de 4 GB de RAM (20-24 USD/mês) é onde o OpenClaw realmente roda confortavelmente.
O ZeroClaw, construído em Rust, fica ocioso a aproximadamente 4 MB de RAM. Esse mesmo VPS de 5 USD/mês de 1 GB roda o ZeroClaw com 99,6% da RAM ainda disponível. A economia anual só em hospedagem: 84-228 USD, dependendo do seu provedor.
Cold starts: o custo que não aparece nas faturas
O tempo de cold start importa em dois cenários. O primeiro é implantação serverless e edge. Se seu agente escala para zero quando ocioso, cada primeira requisição após um período de ociosidade paga a penalidade do cold start. Para o OpenClaw, essa penalidade é de aproximadamente 8 segundos. Em pesquisas de UX, tempos de resposta acima de 3 segundos causam um aumento mensurável no abandono.
Para referência: OpenClaw leva ~8 segundos para iniciar, PicoClaw ~3 segundos, e ZeroClaw menos de 10 milissegundos.
O imposto de dependências: 1.200 pacotes e o que realmente custam
O diretório node_modules do OpenClaw contém mais de 1.200 pacotes. Cada um desses pacotes é um custo real e contínuo. Os ataques à cadeia de suprimentos do ClawHub no início de 2026 exploraram exatamente isso.
O ZeroClaw é distribuído como um binário único linkado estaticamente. Sem gerenciador de pacotes. Sem lockfile. Sem resolução de dependências. Implante copiando um arquivo de 12 MB para o servidor e rodando.
Fazendo as contas
Para um único agente sempre ativo lidando com aproximadamente 1.000 mensagens por dia:
| Categoria de custo | OpenClaw | ZeroClaw | |--------------|----------|----------| | Hospedagem (VPS) | 288 USD/ano (precisa 4 GB) | 60 USD/ano (1 GB suficiente) | | Custos de tokens | 180 USD/ano | 180 USD/ano | | Manutenção de engenharia | ~1.200 USD/ano (2h/mês a 50 USD/h) | ~150 USD/ano (15 min/mês) | | Impacto de cold start | ~200 USD/ano (churn estimado) | Insignificante | | Total | ~1.868 USD/ano | ~390 USD/ano |
A diferença anual de 1.478 USD é completamente sobrecarga de infraestrutura e operações. Essa é a diferença entre um projeto que é economicamente viável e um que sangra dinheiro silenciosamente até alguém cancelar.
As implicações arquiteturais
Um runtime que precisa de 4 GB de RAM não consegue rodar numa Raspberry Pi. Não consegue rodar num VPS de 5 USD/mês. Não consegue ser implantado em nós edge próximos aos seus usuários. Cada uma dessas restrições é uma decisão de produto tomada pelos requisitos de recursos do seu runtime, antes de você ter escrito uma única linha de código de aplicação.
Um runtime que usa 4 MB de RAM e inicia em 10 milissegundos consegue rodar em qualquer lugar. A arquitetura se torna uma escolha em vez de uma restrição.