ZeroClaw + Ollama: ejecuta un agente de IA completamente privado en 5 minutos

En algún momento, la mayoría de las personas que usan servicios de IA en la nube tienen una pausa. Estás escribiendo una pregunta sobre un síntoma médico, o redactando un mensaje sobre una situación empresarial delicada, o pidiendo ayuda con código que contiene lógica propietaria —y te das cuenta de que todo lo que escribes se envía a un servidor que no controlas.

ZeroClaw y Ollama juntos responden a esa pregunta. Así es como configurarlo.

Por qué vale la pena el esfuerzo de ir local

El beneficio obvio de ejecutar IA localmente es la privacidad: tus prompts y respuestas nunca salen de tu máquina. Pero los beneficios menos obvios suelen ser igual de convincentes.

No hay costes de API. Los servicios de IA en la nube cobran por token. Para uso personal ligero, es insignificante. Para una empresa que procesa miles de documentos, o un desarrollador que usa un asistente de IA todo el día, se acumula rápido. Un modelo local tiene coste marginal cero por consulta.

No hay límites de velocidad. Los proveedores en la nube limitan las solicitudes para gestionar la carga. Un modelo local corre tan rápido como tu hardware lo permita, sin colas, sin errores 429 y sin servicio degradado en horas pico.

No hay dependencia de internet. Un asistente de IA local funciona en aviones, sótanos, detrás de cortafuegos corporativos y en entornos air-gapped donde el acceso a la nube está prohibido. Una vez descargado el modelo, funciona completamente sin conexión.

Paso 1: Instalar Ollama

Ollama es la forma más sencilla de ejecutar modelos de lenguaje grandes localmente. Gestiona las descargas de modelos, la cuantización y el servicio a través de una API simple que ZeroClaw sabe cómo usar.

En macOS:

```bash brew install ollama ```

En Linux:

```bash curl -fsSL https://ollama.com/install.sh | sh ```

En Windows, descarga el instalador desde ollama.com.

Una vez instalado, descarga un modelo. Para la mayoría de los casos de uso, llama3.1:8b es el punto de partida correcto —es suficientemente capaz para trabajo real y corre cómodamente en máquinas con 8 GB de RAM:

```bash ollama pull llama3.1:8b ```

Si tienes hardware más limitado, `qwen3:4b` o `phi3:mini` son opciones más ligeras que siguen manejando bien la mayoría de las tareas.

Paso 2: Instalar ZeroClaw

```bash brew install zeroclaw ```

O en Linux:

```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```

ZeroClaw es un binario único. No hay nada más que instalar, ningún runtime que configurar, ninguna dependencia que gestionar.

Paso 3: Apuntar ZeroClaw a Ollama

Edita tu `config.toml` para decirle a ZeroClaw que use Ollama como proveedor de IA:

```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```

Ese es el único cambio de configuración. El sistema de proveedores de ZeroClaw está diseñado para que cambiar entre Anthropic, OpenAI, Ollama o cualquier otro proveedor compatible sea un cambio de una línea.

Paso 4: Conectar un canal

Añade Telegram como interfaz:

```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```

Inicia ZeroClaw:

```bash zeroclaw start ```

Envía un mensaje a tu bot de Telegram. La respuesta viene de Ollama corriendo en tu máquina. Nada toca internet excepto la llamada a la API de Telegram para entregar el mensaje —el procesamiento real de IA es completamente local.

Más allá: modo híbrido

La IA puramente local tiene una limitación real: los modelos más pequeños no son tan capaces como los modelos frontier para tareas de razonamiento complejo. El modo híbrido de ZeroClaw te permite obtener lo mejor de ambos mundos.

```toml [ai] provider = "ollama" model = "llama3.1:8b"

[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```

Con esta configuración, las preguntas simples se manejan localmente a coste cero. Las tareas de razonamiento complejo que el modelo local no puede manejar bien recurren automáticamente a Claude. Para la mayoría de los usuarios, este enfoque híbrido es el punto óptimo práctico: el 80-90% de las consultas se manejan localmente de forma gratuita.

En qué hardware funciona realmente

Ejecutar ZeroClaw + Ollama con llama3.1:8b requiere unos 6 GB de RAM para el modelo en sí, más un insignificante 4 MB para ZeroClaw. Una máquina con 8 GB de RAM puede ejecutar el stack completo; 16 GB es cómodo. El tiempo de respuesta en un Apple M1 es típicamente de 2-5 segundos para una consulta típica.

Un Mac Mini de 200 dólares, un ThinkPad usado de 50 dólares, o una máquina que ya tienes —cualquiera de estos puede ejecutar un asistente de IA completamente privado 24/7 con cero costes continuos.

El panorama general

El resultado es un asistente de IA que no sabe nada de ti excepto lo que le dices, no almacena nada en los servidores de nadie más, y no cuesta nada ejecutar más allá de la electricidad para mantener tu máquina encendida. Para cualquiera que alguna vez haya dudado antes de escribir algo sensible en un chat, eso vale mucho.