Le coût caché des agents IA : pourquoi la RAM et les cold starts comptent plus que vous ne pensez

Il y a un schéma que j’ai observé chez presque toutes les équipes qui construisent des agents IA pour la première fois. Elles passent les premières semaines à obsséder sur les coûts de tokens. Puis la facture cloud arrive. Elle est plus élevée que prévu. La surprise, c’est tout le reste.

Les cinq couches de coûts des agents IA

La première couche, ce sont les coûts de tokens : ce qu’on paie au fournisseur IA par requête. C’est la plus petite partie de la facture totale dans beaucoup de cas.

La deuxième couche, ce sont les coûts de calcul : la RAM, le CPU et l’infrastructure serveur. Un runtime qui tourne au repos à 1,2 Go de RAM contraint chaque décision architecturale en aval.

La troisième couche, ce sont les coûts de cold start — sournoise parce qu’elle n’apparaît sur aucune facture. Quand le délai est de 8 secondes, certains utilisateurs supposent que le bot est en panne et partent. C’est du churn.

La quatrième couche, ce sont les coûts opérationnels : les heures d’ingénierie pour le monitoring, le debugging, les mises à jour de dépendances. Un runtime avec 1 200 dépendances npm a une grande surface de maintenance.

La cinquième couche, ce sont les coûts d’opportunité : les choses qu’on ne peut pas construire parce que l’infrastructure est déjà saturée.

La taxe RAM : ce que 1,2 Go coûte vraiment

OpenClaw tourne au repos à environ 1,2 Go de RAM. Un VPS 1 Go ne peut pas le faire tourner du tout. Un VPS 2 Go (10–12 €/mois) peut techniquement le faire, mais vous utilisez 60 % de la mémoire au repos. Un VPS 4 Go (20–24 €/mois) est là où ça tourne confortablement.

ZeroClaw tourne au repos à environ 4 Mo de RAM. Ce même VPS à 5 €/mois fait tourner ZeroClaw avec 99,6 % de RAM encore disponible. L’économie annuelle sur l’hébergement seul : 84 à 228 €.

Pour les équipes qui font tourner plusieurs agents, le calcul devient dramatique. Dix instances OpenClaw nécessitent un serveur dédié à 100 €+/mois. Dix instances ZeroClaw tiennent sur un VPS à 5 €/mois.

Cold starts : le coût qui n’apparaît pas sur les factures

Le temps de cold start compte dans deux scénarios. Le premier est le déploiement serverless et edge. Pour OpenClaw, la pénalité est d’environ 8 secondes. Dans la recherche UX, les temps de réponse au-delà de 3 secondes causent une augmentation mesurable du taux d’abandon.

Le deuxième scénario, ce sont les redémarrages. Un agent qui redémarre en 10 millisecondes est effectivement toujours disponible. Un agent qui prend 8 secondes crée des fenêtres d’indisponibilité qui s’accumulent en heures de downtime sur un an.

Pour référence : OpenClaw prend ~8 s à démarrer, PicoClaw ~3 s, ZeroClaw moins de 10 ms.

La taxe dépendances : 1 200 packages et ce qu’ils coûtent vraiment

Le répertoire node_modules d’OpenClaw contient plus de 1 200 packages. Chacun est un coût réel et continu. Les attaques de chaîne d’approvisionnement ClawHub de début 2026 ont exploité exactement ça. Garder 1 200 packages compatibles est un travail à mi-temps.

ZeroClaw se livre comme un binaire unique statiquement lié. Déployer, c’est copier un fichier de 12 Mo sur votre serveur et le lancer.

Les chiffres

Pour un agent IA always-on traitant environ 1 000 messages par jour :

| Catégorie de coût | OpenClaw | ZeroClaw | |-----------------|----------|----------| | Hébergement (VPS) | 288 €/an (4 Go nécessaire) | 60 €/an (1 Go suffisant) | | Coûts de tokens | 180 €/an | 180 €/an | | Maintenance ingénierie | ~1 200 €/an (2h/mois) | ~150 €/an (15min/mois) | | Impact cold start | ~200 €/an (churn estimé) | Négligeable | | Total | ~1 868 €/an | ~390 €/an |

Les coûts de tokens sont identiques. L’écart annuel de 1 478 € est entièrement de l’overhead d’infrastructure et opérationnel.

Les implications architecturales

Un runtime qui a besoin de 4 Go de RAM ne peut pas tourner sur un Raspberry Pi, ni sur un VPS à 5 €/mois, ni être déployé sur des nœuds edge. Chacune de ces contraintes est une décision produit prise pour vous avant que vous ayez écrit une seule ligne de code applicatif.

Un runtime qui utilise 4 Mo de RAM et démarre en 10 millisecondes peut tourner n’importe où. L’architecture devient un choix plutôt qu’une contrainte.