O custo oculto dos agentes de IA: por que RAM e cold starts importam mais do que você pensa

Há um padrão que percebi em quase todos os times que constroem agentes de IA pela primeira vez. Eles passam as primeiras semanas obcecados com custos de tokens. Fazem A/B testing de system prompts. Implementam cache. Trocam de GPT-4 para GPT-4o-mini para consultas simples. Constroem dashboards rastreando custo por mensagem até quatro casas decimais.

Aí chega a fatura da nuvem.

É mais alta do que o esperado. Às vezes significativamente mais alta. E quando analisam, os custos de tokens estão exatamente onde previram. A surpresa é todo o resto.

As cinco camadas de custo dos agentes de IA

A primeira camada são os custos de tokens: o que você paga ao provedor de IA por requisição. Essa é a que todo mundo fala, a que é otimizada primeiro, e em muitos casos, a menor parte da sua fatura total.

A segunda camada são os custos de computação: a RAM, CPU e infraestrutura de servidor que hospeda seu runtime de agente. Um runtime que fica ocioso a 1,2 GB de RAM não só custa mais para hospedar —restringe cada decisão arquitetural que você toma depois.

A terceira camada são os custos de cold start, e essa é sorrateira porque não aparece em nenhuma fatura. O tempo de cold start é o atraso entre receber uma mensagem e seu agente estar pronto para processá-la. Quando esse atraso é de 8 segundos, alguns usuários vão assumir que o bot está quebrado e ir embora.

A quarta camada são os custos operacionais: as horas de engenharia gastas em monitoramento, depuração, atualizações de dependências e resposta a incidentes. Um runtime com 1.200 dependências npm não só tem uma superfície de ataque maior —tem uma superfície de manutenção maior.

A quinta camada são os custos de oportunidade: as coisas que você não consegue construir porque sua infraestrutura já está no limite. Quando seu runtime de agente consome 60% da RAM do servidor em repouso, você não está experimentando com arquiteturas multi-agente.

O imposto de RAM: o que 1,2 GB realmente custa

O OpenClaw fica ocioso a aproximadamente 1,2 GB de RAM. Na infraestrutura em nuvem, isso se traduz assim: um VPS de 1 GB de RAM —o nível mais barato na maioria dos provedores, tipicamente 5-6 USD/mês— não consegue rodar o OpenClaw. Um VPS de 2 GB de RAM (10-12 USD/mês) pode tecnicamente rodar o OpenClaw, mas você está usando 60% da memória disponível em repouso. Um VPS de 4 GB de RAM (20-24 USD/mês) é onde o OpenClaw realmente roda confortavelmente.

O ZeroClaw, construído em Rust, fica ocioso a aproximadamente 4 MB de RAM. Esse mesmo VPS de 5 USD/mês de 1 GB roda o ZeroClaw com 99,6% da RAM ainda disponível. A economia anual só em hospedagem: 84-228 USD, dependendo do seu provedor.

Cold starts: o custo que não aparece nas faturas

O tempo de cold start importa em dois cenários. O primeiro é implantação serverless e edge. Se seu agente escala para zero quando ocioso, cada primeira requisição após um período de ociosidade paga a penalidade do cold start. Para o OpenClaw, essa penalidade é de aproximadamente 8 segundos. Em pesquisas de UX, tempos de resposta acima de 3 segundos causam um aumento mensurável no abandono.

Para referência: OpenClaw leva ~8 segundos para iniciar, PicoClaw ~3 segundos, e ZeroClaw menos de 10 milissegundos.

O imposto de dependências: 1.200 pacotes e o que realmente custam

O diretório node_modules do OpenClaw contém mais de 1.200 pacotes. Cada um desses pacotes é um custo real e contínuo. Os ataques à cadeia de suprimentos do ClawHub no início de 2026 exploraram exatamente isso.

O ZeroClaw é distribuído como um binário único linkado estaticamente. Sem gerenciador de pacotes. Sem lockfile. Sem resolução de dependências. Implante copiando um arquivo de 12 MB para o servidor e rodando.

Fazendo as contas

Para um único agente sempre ativo lidando com aproximadamente 1.000 mensagens por dia:

| Categoria de custo | OpenClaw | ZeroClaw | |--------------|----------|----------| | Hospedagem (VPS) | 288 USD/ano (precisa 4 GB) | 60 USD/ano (1 GB suficiente) | | Custos de tokens | 180 USD/ano | 180 USD/ano | | Manutenção de engenharia | ~1.200 USD/ano (2h/mês a 50 USD/h) | ~150 USD/ano (15 min/mês) | | Impacto de cold start | ~200 USD/ano (churn estimado) | Insignificante | | Total | ~1.868 USD/ano | ~390 USD/ano |

A diferença anual de 1.478 USD é completamente sobrecarga de infraestrutura e operações. Essa é a diferença entre um projeto que é economicamente viável e um que sangra dinheiro silenciosamente até alguém cancelar.

As implicações arquiteturais

Um runtime que precisa de 4 GB de RAM não consegue rodar numa Raspberry Pi. Não consegue rodar num VPS de 5 USD/mês. Não consegue ser implantado em nós edge próximos aos seus usuários. Cada uma dessas restrições é uma decisão de produto tomada pelos requisitos de recursos do seu runtime, antes de você ter escrito uma única linha de código de aplicação.

Um runtime que usa 4 MB de RAM e inicia em 10 milissegundos consegue rodar em qualquer lugar. A arquitetura se torna uma escolha em vez de uma restrição.