AI 에이전트의 숨겨진 비용: RAM과 콜드 스타트가 생각보다 훨씬 중요한 이유

처음으로 AI 에이전트를 구축하는 거의 모든 팀에서 볼 수 있는 패턴이 있다. 처음 몇 주는 토큰 비용에 집착한다. 시스템 프롬프트를 A/B 테스트한다. 캐싱을 구현한다. 간단한 쿼리에는 GPT-4에서 GPT-4o-mini로 전환한다. 메시지당 비용을 소수점 네 자리까지 추적하는 대시보드를 구축한다.

그리고 클라우드 청구서가 도착한다.

예상보다 높다. 때로는 상당히 높다. 파고들면 토큰 비용은 예측한 대로다. 놀라움은 그 외 모든 것——에이전트 런타임이 계속 OOM 킬되어 업그레이드가 필요했던 VPS, 프로덕션을 망가뜨린 의존성 충돌을 추적하는 데 쓴 엔지니어링 시간, 서버 재시작 후 "봇이 응답하는 데 영원히 걸린다"고 불평한 고객.

토큰 비용은 빙산의 보이는 부분이다. 나머지는 수면 아래에 있으며, 대부분의 사람들이 깨닫는 것보다 크다.

AI 에이전트 비용의 5가지 레이어

프로덕션에서 AI 에이전트를 실행하는 것은 단일 비용이 아니다——각각 고유한 역학과 최적화 전략을 가진 5가지 별개의 비용 레이어 스택이다.

첫 번째 레이어는 토큰 비용: 요청당 AI 제공업체에 지불하는 것. 이것이 모두가 얘기하는 것이고, 가장 먼저 최적화되는 것이며, 다른 모든 것을 고려하면 많은 경우 총 청구서의 가장 작은 부분이다.

두 번째 레이어는 컴퓨트 비용: 에이전트 런타임을 호스팅하는 RAM, CPU, 서버 인프라. 여기서 첫 번째 놀라움이 보통 온다. 유휴 시 1.2GB RAM을 사용하는 런타임은 호스팅 비용이 더 들 뿐만 아니라——하류의 모든 아키텍처 결정을 제약한다. 저렴한 하드웨어에서 실행할 수 없다. 심각한 인프라 예산 없이 각 고객에게 전용 인스턴스를 줄 수 없다. 사용자에게 가까운 엣지 노드에 배포할 수 없다.

세 번째 레이어는 콜드 스타트 비용이며, 어떤 청구서에도 나타나지 않기 때문에 교활하다. 콜드 스타트 시간은 메시지를 수신하고 에이전트가 처리할 준비가 될 때까지의 지연이다. 그 지연이 8초일 때, 일부 사용자는 봇이 고장났다고 생각하고 떠난다. 그것은 이탈이고, 이탈에는 비용이 있다——단지 AWS 청구서에 나타나지 않을 뿐이다.

네 번째 레이어는 운영 비용: 모니터링, 디버깅, 의존성 업데이트, 인시던트 대응에 쓰는 엔지니어링 시간. 1,200개의 npm 의존성을 가진 런타임은 큰 공격 표면을 가질 뿐만 아니라——큰 유지 관리 표면도 가진다. 누군가가 그 패키지들을 계속 업데이트하고, 파괴적인 변경 사항을 조사하고, 전이적 의존성이 취약점을 도입할 때 대응해야 한다.

다섯 번째 레이어는 기회 비용: 인프라가 이미 한계에 달해 구축할 수 없는 것들. 이것이 정량화하기 가장 어렵고 장기적으로 가장 비싸다. 에이전트 런타임이 유휴 시 서버 RAM의 60%를 소비할 때, 멀티 에이전트 아키텍처를 실험하지 않는다. 엣지 노드에 배포하지 않는다. 상당한 인프라 투자 없이 100명의 고객으로 확장하지 않는다. 런타임의 리소스 요구 사항이 제품 제약이 된다.

대부분의 팀은 레이어 1을 최적화하고 레이어 2~5를 무시한다. 거기에 실제로 돈이 간다.

RAM 세금: 1.2GB가 실제로 드는 비용

컴퓨트 비용을 구체적으로 만들어보자. 수치는 대부분의 사람들이 예상하는 것보다 극적이다.

OpenClaw는 유휴 시 약 1.2GB RAM을 사용한다. 이것은 버그나 잘못된 구성이 아니다——큰 의존성 트리를 가진 Node.js 애플리케이션을 실행하는 자연스러운 결과다. V8 JavaScript 엔진, Node.js 런타임, 1,200개 이상의 npm 패키지는 모두 에이전트가 단일 메시지를 처리하기 전에 메모리에 있어야 한다.

클라우드 인프라에서 이것은 다음과 같이 전개된다. 1GB RAM VPS——대부분의 제공업체에서 가장 저렴한 티어, 보통 월 $5-6——는 OpenClaw를 전혀 실행할 수 없다. Linux OOM 킬러가 시작을 마치기 전에 프로세스를 종료한다. 로그에 불가사의한 종료 코드로 나타나고, 문제가 단순히 RAM 부족임을 깨닫기 전에 한 시간을 디버깅에 쓴다.

2GB RAM VPS (월 $10-12)는 기술적으로 OpenClaw를 실행할 수 있지만, 유휴 시 사용 가능한 메모리의 60%를 사용하고 있다. OS, 모니터링 에이전트, 로그 시퍼, 실행 중인 다른 서비스들이 나머지 800MB를 놓고 경쟁한다. 부하 시 스왑 사용량, 지연 스파이크, 트래픽 버스트 중 간헐적인 OOM 킬이 발생한다.

4GB RAM VPS (월 $20-24)가 OpenClaw가 실제로 편안하게 실행되는 곳이다. 연간 $240-288를 지불하고 있으며, 그 비용의 상당 부분은 메시지를 기다리는 동안 OpenClaw의 런타임을 메모리에 유지하기 위한 것이다.

Rust로 구축된 ZeroClaw는 유휴 시 약 4MB RAM을 사용한다. 4GB가 아니라——4메가바이트다. 같은 $5/월 1GB VPS가 ZeroClaw를 실행하고 RAM의 99.6%가 여전히 실제 워크로드에 사용 가능하다. 호스팅만으로의 연간 절약: 제공업체에 따라 $84~$228.

10명의 기업 고객을 위한 10개 인스턴스, 또는 100명의 사용자를 위한 100개 인스턴스를 실행하는 팀에게 계산은 극적이 된다. 10개의 OpenClaw 인스턴스에는 월 $100 이상의 전용 서버가 필요하다. 10개의 ZeroClaw 인스턴스는 $5/월 VPS에 여유 있게 들어간다.

콜드 스타트: 청구서에 나타나지 않는 비용

콜드 스타트 시간은 대부분의 팀이 깨닫는 것보다 더 일반적인 두 가지 시나리오에서 중요하다.

첫 번째는 서버리스와 엣지 배포다. 에이전트가 유휴 시 제로로 스케일다운되는 경우——이것은 대부분의 서버리스 플랫폼의 기본 동작이며, 저트래픽 배포의 유일하게 경제적으로 합리적인 접근 방식이다——유휴 기간 후 첫 번째 요청은 콜드 스타트 페널티를 지불한다. OpenClaw의 경우 그 페널티는 약 8초다. 메시지를 보내고 응답을 기다리는 사용자에게 8초는 영원이다. UX 연구에서 3초를 초과하는 응답 시간은 이탈의 측정 가능한 증가를 일으킨다. 8초에서는 많은 사용자가 서비스가 다운됐다고 생각하고 시도를 멈춘다.

두 번째 시나리오는 재시작이다. 충돌은 일어난다. 업데이트에는 재시작이 필요하다. 서버는 커널 패치를 위해 재부팅된다. 10밀리초에 재시작하는 에이전트는 사실상 항상 사용 가능하다——사용자는 간격을 알아채지 못한다. 8초가 걸리는 에이전트는 1년 동안 합산하면 수 시간의 다운타임이 되는 사용 불가 창을 만든다.

하지만 콜드 스타트가 정말 복합적으로 쌓이는 시나리오는 멀티 에이전트 오케스트레이션이다. 에이전트가 다른 에이전트를 호출할 때——프로덕션 AI 시스템에서 점점 더 일반적이 되고 있다——체인의 각 홉이 콜드 스타트를 트리거할 수 있다. 세 개의 OpenClaw 에이전트를 체인으로 연결하는 워크플로우는 실제 작업이 시작되기 전에 총 24초의 시작 오버헤드를 추가한다. 세 개의 ZeroClaw 에이전트는 총 30밀리초를 추가한다.

참고: OpenClaw는 시작하는 데 약 8초 걸린다(Node.js 시작 + 모듈 로딩), PicoClaw는 약 3초(Python 인터프리터 + 임포트), ZeroClaw는 10밀리초 미만(네이티브 바이너리, 초기화할 런타임 없음).

의존성 세금: 1,200개 패키지와 실제 비용

OpenClaw의 node_modules 디렉토리에는 1,200개 이상의 패키지가 포함되어 있다. 대부분은 전이적 의존성——당신의 패키지가 의존하는 패키지들로, 명시적으로 선택한 적이 없고 존재조차 모를 수 있는 것들이다.

보안 관점에서 모든 패키지는 잠재적인 취약점이다. 2026년 초의 ClawHub 공급망 공격은 정확히 이것을 악용했다: npm에 업로드된 악성 패키지가 인기 있는 OpenClaw 플러그인의 전이적 의존성으로 가져와졌다. 1,200개의 의존성을 가진 런타임에는 1,200개의 잠재적 공격 벡터가 있으며, 그 모두를 감사하는 것은 현실적인 선택이 아니다.

ZeroClaw는 단일 정적 링크 바이너리로 제공된다. 패키지 매니저 없음. 락파일 없음. 의존성 해결 없음. node_modules 디렉토리 없음. 하나의 12MB 파일을 서버에 복사하고 실행하는 것으로 배포한다. 그것이 전체 배포 프로세스다.

수치 계산

하루 약 1,000개 메시지를 처리하는 항상 켜져 있는 단일 AI 에이전트의 경우:

| 비용 카테고리 | OpenClaw | ZeroClaw | |--------------|----------|----------| | 호스팅 (VPS) | $288/년 (4GB 필요) | $60/년 (1GB 충분) | | 토큰 비용 | $180/년 | $180/년 | | 엔지니어링 유지 관리 | ~$1,200/년 (월 2시간 × $50/시간) | ~$150/년 (월 15분) | | 콜드 스타트 영향 | ~$200/년 (추정 이탈) | 무시할 수 있음 | | 합계 | ~$1,868/년 | ~$390/년 |

토큰 비용은 동일하다——둘 다 같은 AI 제공업체를 사용한다. $1,478의 연간 격차는 완전히 인프라와 운영 오버헤드다. 이것은 반올림 오류가 아니다. 경제적으로 실행 가능한 프로젝트와 누군가가 취소할 때까지 조용히 돈을 잃는 프로젝트의 차이다.

아키텍처에 대한 함의

에이전트 런타임의 리소스 특성은 단순한 운영 세부 사항이 아니다——무엇을 구축할 수 있는지를 형성한다.

4GB RAM이 필요한 런타임은 Raspberry Pi에서 실행할 수 없다. $5/월 VPS에서 실행할 수 없다. 사용자에게 가까운 엣지 노드에 배포할 수 없다. 상당한 인프라 예산 없이 1,000명의 고객 각각에게 전용 인스턴스로 줄 수 없다. 이 제약들 각각은 애플리케이션 코드를 한 줄도 작성하기 전에 런타임의 리소스 요구 사항에 의해 당신을 위해 내려진 제품 결정이다.

4MB RAM을 사용하고 10밀리초에 시작하는 런타임은 어디서나 실행할 수 있다. $10짜리 싱글 보드 컴퓨터에서. $5/월 VPS에서. 50개 도시의 엣지 노드에서. 같은 서버의 1,000명의 고객 각각을 위한 전용 인스턴스로. 아키텍처가 제약이 아닌 선택이 된다.

가장 저렴한 토큰은 에이전트가 시작하기를 기다리는 동안 낭비하지 않는 것이다. 하지만 가장 비싼 인프라 결정은 수년 동안 무엇을 구축할 수 있는지를 조용히 제한하는 것이다.