Hace unos años, el autoalojamiento de IA significaba ejecutar un modelo de 7.000 millones de parámetros en una estación de trabajo de 3.000 dólares y esperar 30 segundos por cada respuesta. Era un ejercicio de aficionado, no una alternativa práctica a los servicios en la nube.
Eso ha cambiado. En 2026, el autoalojamiento de IA es una elección práctica impulsada por preocupaciones reales: soberanía de datos, cumplimiento del RGPD, protección de la propiedad intelectual corporativa y el simple deseo de poseer tus herramientas en lugar de alquilarlas. Así se construye el stack completo.
Los tres componentes
La arquitectura son tres herramientas, cada una haciendo una cosa bien.
ZeroClaw es el runtime del agente de IA. Gestiona el enrutamiento de mensajes a través de tus canales de chat, administra la memoria de conversación en una base de datos SQLite local y ejecuta herramientas cuando tu agente necesita actuar. Usa 4 MB de RAM y se distribuye como un binario único.
Ollama es el servidor LLM local. Descarga y gestiona modelos de código abierto, maneja la cuantización automáticamente y expone una API simple que ZeroClaw sabe cómo usar. Ejecutas `ollama pull llama3.1:8b` y funciona.
Tailscale es la capa de red segura. Crea una malla WireGuard cifrada entre tus dispositivos, para que puedas acceder a tu asistente de IA desde tu teléfono o laptop en cualquier lugar del mundo sin exponer ningún puerto a internet.
Juntas, estas tres herramientas forman un asistente de IA completamente privado que funciona desde cualquier dispositivo, con cero datos saliendo de tu red.
Elegir tu hardware
En el extremo económico (50-100 USD), una Raspberry Pi 5 con 8 GB de RAM puede ejecutar modelos pequeños en el rango de 1.500-4.000 millones de parámetros. Un portátil antiguo con 16 GB de RAM maneja modelos de 7.000-8.000 millones de parámetros razonablemente bien.
En el rango medio (200-400 USD), un Mac Mini M2 es difícil de superar. Es silencioso, consume mínima energía y maneja modelos de 8.000-13.000 millones de parámetros cómodamente.
Para el mejor rendimiento (500+ USD), cualquier máquina con una NVIDIA RTX 3060 o mejor te da inferencia rápida en modelos grandes.
Paso 1: Configurar Ollama
```bash curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b ollama pull qwen3:8b ollama pull deepseek-r1:7b ```
Verifica que funciona antes de continuar: `ollama run llama3.1:8b "Hello"`.
Paso 2: Instalar y configurar ZeroClaw
```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```
Configura `~/.config/zeroclaw/config.toml`:
```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434"
[memory] backend = "sqlite" path = "~/.local/share/zeroclaw/memory.db"
[channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```
Paso 3: Acceso remoto seguro con Tailscale
```bash curl -fsSL https://tailscale.com/install.sh | sh sudo tailscale up
tailscale ip -4 ```
Instala Tailscale en tu teléfono y laptop también. Una vez que todos tus dispositivos estén en la misma red Tailscale, pueden comunicarse de forma segura a través de cualquier conexión a internet.
Lo que obtienes realmente
El resultado práctico de este stack es un asistente de IA que se comporta como un servicio en la nube pero corre completamente en tu hardware. Tus prompts y respuestas nunca salen de tu red. El historial de conversaciones vive en un archivo SQLite en tu máquina.
La comparación de costes es contundente. ChatGPT Plus y Claude Pro cuestan 20 USD/mes por persona. El autoalojamiento en una Raspberry Pi 5 cuesta aproximadamente 2 USD/mes en electricidad. En un Mac Mini, unos 5 USD/mes.
Para quién es este stack
Esta configuración tiene más sentido para desarrolladores que trabajan en bases de código propietarias. Para pequeñas empresas que manejan datos sensibles de clientes. Para profesionales de la salud y el derecho con requisitos de cumplimiento. Para cualquiera que haya pensado detenidamente sobre dónde van sus datos y haya decidido que prefiere mantenerlos en casa.