ZeroClaw + Ollama: 5분 만에 완전 프라이빗 AI 에이전트 실행하기

클라우드 AI 서비스를 사용하다 보면 어느 순간 멈칫하게 된다. 의료 증상에 대한 질문을 입력하거나, 민감한 비즈니스 상황에 대한 메시지를 작성하거나, 독점 로직이 담긴 코드 도움을 요청할 때——자신이 입력하는 모든 것이 통제할 수 없는 서버로 전송되고, 한 번도 읽어본 적 없는 데이터 보존 정책을 가진 회사에 의해 처리되며, 미래 모델 훈련에 사용될 수 있다는 것을 깨닫는다.

많은 사용 사례에서 그것은 받아들일 수 있는 트레이드오프다. 많은 다른 경우에는 그렇지 않다. 그리고 점점 더 많은 개발자들에게 문제는 AI를 사용할지 여부가 아니라——데이터를 넘기지 않고 AI를 사용할 수 있는지 여부다.

ZeroClaw와 Ollama를 함께 사용하면 그 질문에 답할 수 있다. 설정 방법을 알아보자.

로컬 우선이 수고를 들일 가치가 있는 이유

AI를 로컬에서 실행하는 명백한 이점은 프라이버시다: 프롬프트와 응답이 머신을 떠나지 않는다. 하지만 덜 명백한 이점들도 종종 그만큼 매력적이다.

API 비용이 없다. 클라우드 AI 서비스는 토큰당 요금을 청구한다——입력은 보통 백만 토큰당 몇 달러, 출력은 더 비싸다. 가벼운 개인 사용에는 무시할 수 있다. 하지만 수천 개의 문서를 처리하는 비즈니스나 하루 종일 AI 어시스턴트를 사용하는 개발자에게는 빠르게 쌓인다. 로컬 모델은 쿼리당 한계 비용이 제로다.

속도 제한이 없다. 클라우드 제공업체는 부하 관리를 위해 요청을 스로틀한다. 로컬 모델은 하드웨어가 허용하는 만큼 빠르게 실행되며, 큐잉 없음, 429 오류 없음, 피크 시간대의 서비스 저하 없음.

인터넷 의존성이 없다. 로컬 AI 어시스턴트는 비행기 안에서도, 지하실에서도, 기업 방화벽 뒤에서도, 클라우드 접근이 금지된 에어갭 환경에서도 작동한다. 모델을 다운로드하면 완전히 오프라인으로 실행된다.

그리고 의료, 법률, 금융 같은 규제 산업에서 로컬 AI는 단순한 선호가 아니라 종종 컴플라이언스 요구 사항이다. HIPAA, GDPR, 각종 금융 규정은 민감한 데이터를 처리할 수 있는 위치에 엄격한 제한을 둔다. 로컬 모델은 그런 우려를 완전히 우회한다.

1단계: Ollama 설치

Ollama는 대형 언어 모델을 로컬에서 실행하는 가장 쉬운 방법이다. 모델 다운로드, 양자화, ZeroClaw가 통신하는 방법을 아는 간단한 API를 통한 서빙을 처리한다.

macOS:

```bash brew install ollama ```

Linux:

```bash curl -fsSL https://ollama.com/install.sh | sh ```

Windows는 ollama.com에서 설치 프로그램을 다운로드.

설치 후 모델을 가져온다. 대부분의 사용 사례에서 llama3.1:8b가 적절한 시작점이다——실제 작업에 충분히 유능하고 8GB RAM 머신에서 편안하게 실행된다:

```bash ollama pull llama3.1:8b ```

저사양 하드웨어라면 `qwen3:4b`나 `phi3:mini`가 대부분의 작업을 처리하는 가벼운 옵션이다. 16GB 이상 RAM 머신에서 더 나은 품질을 원한다면 `llama3.1:70b`(양자화 버전)를 시도해볼 만하다.

2단계: ZeroClaw 설치

```bash brew install zeroclaw ```

또는 Linux:

```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```

ZeroClaw는 단일 바이너리다. 설치할 것이 없고, 구성할 런타임이 없고, 관리할 의존성이 없다.

3단계: ZeroClaw를 Ollama로 연결

`config.toml`을 편집해 ZeroClaw에게 Ollama를 AI 제공업체로 사용하도록 지시:

```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```

설정 변경은 이게 전부다. ZeroClaw의 제공업체 시스템은 Anthropic, OpenAI, Ollama, 또는 지원되는 다른 제공업체 간 전환이 한 줄 변경으로 가능하도록 설계됐다. 코드 수정 없음, 재컴파일 없음, 설치할 플러그인 없음.

4단계: 채널 연결

인터페이스로 Telegram을 추가——모든 기기에서 작동하고, 모바일 앱이 훌륭하며, ZeroClaw의 Telegram 통합은 성숙해 있다:

```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```

ZeroClaw 시작:

```bash zeroclaw start ```

Telegram 봇에 메시지를 보낸다. 응답은 머신에서 실행 중인 Ollama에서 온다. 메시지를 전달하는 Telegram API 호출 외에는 인터넷에 아무것도 닿지 않는다——실제 AI 처리는 완전히 로컬이다.

더 나아가기: 하이브리드 모드

순수 로컬 AI에는 한 가지 실제 한계가 있다: 작은 모델은 복잡한 추론 작업에서 Claude나 GPT-4 같은 프론티어 모델만큼 유능하지 않다. ZeroClaw의 하이브리드 모드는 두 가지 장점을 모두 취할 수 있게 해준다.

```toml [ai] provider = "ollama" model = "llama3.1:8b"

[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```

이 설정으로 간단한 질문——"프랑스의 수도는?", "이 단락을 요약해줘", "이메일 주소 정규식 작성해줘"——은 제로 비용으로 로컬에서 처리된다. 로컬 모델이 어려워하는 복잡한 추론 작업은 자동으로 Claude로 폴백된다. 경계를 어디에 설정할지는 당신이 결정한다. 대부분의 사용자에게 이 하이브리드 접근 방식이 실용적인 스위트 스팟이다: 80~90%의 쿼리가 무료로 로컬에서 처리되고, 정말 필요한 경우에는 클라우드 폴백이 사용 가능하다.

실제로 무엇이 필요한가

llama3.1:8b로 ZeroClaw + Ollama를 실행하려면 모델 자체에 약 6GB RAM이 필요하고, ZeroClaw에는 무시할 수 있는 4MB가 추가된다. 8GB RAM 머신에서 전체 스택이 실행된다; 16GB면 여유롭다. Apple M1에서 일반적인 쿼리의 응답 시간은 보통 2~5초다. 별도 GPU가 있는 최신 머신에서는 더 빠르다.

200달러짜리 Mac Mini, 50달러짜리 중고 ThinkPad, 이미 가지고 있는 머신——이 중 어느 것이든 지속적인 비용 없이 24/7 완전 프라이빗 AI 어시스턴트를 실행할 수 있다. 하드웨어는 클라우드 AI 구독과 비교해 몇 달 만에 본전을 뽑는다.

큰 그림

"AI에는 클라우드가 필요하다"는 내러티브는 2023년에는 의미가 있었다——로컬에서 유능한 모델을 실행하려면 비싼 하드웨어와 상당한 기술적 전문 지식이 필요했다. 더 이상 그렇지 않다. Ollama가 로컬 모델을 접근 가능하게 만들었다. ZeroClaw가 그것을 일상 워크플로우에 연결하는 것을 간단하게 만들었다.

결과는 당신에 대해 당신이 말한 것 외에는 아무것도 모르고, 다른 누군가의 서버에 아무것도 저장하지 않으며, 머신을 켜두는 전기 외에는 아무 비용도 들지 않는 AI 어시스턴트다. 채팅창에 민감한 것을 입력하기 전에 망설인 적이 있는 사람에게 그것은 큰 가치가 있다.