ZeroClaw + Ollama : un agent IA totalement privé en 5 minutes

À un moment ou un autre, la plupart des gens qui utilisent des services IA cloud ont une pause. Vous tapez une question sur un symptôme médical, ou vous rédigez un message sur une situation professionnelle sensible, ou vous demandez de l’aide pour du code contenant de la logique propriétaire — et vous réalisez que tout ce que vous tapez est envoyé à un serveur que vous ne contrôlez pas.

ZeroClaw et Ollama ensemble répondent à cette question. Voici comment configurer ça.

Pourquoi le local-first vaut l’effort

L’avantage évident de faire tourner l’IA localement, c’est la confidentialité : vos prompts et réponses ne quittent jamais votre machine. Mais les avantages moins évidents sont souvent tout aussi convaincants.

Pas de coûts d’API. Les services IA cloud facturent au token. Pour une utilisation personnelle légère, c’est négligeable. Pour une entreprise qui traite des milliers de documents, ou un développeur qui utilise un assistant IA toute la journée, ça s’accumule vite. Un modèle local a un coût marginal zéro par requête.

Pas de limites de débit. Les fournisseurs cloud throttlent les requêtes. Un modèle local tourne aussi vite que votre matériel le permet, sans file d’attente, sans erreurs 429.

Pas de dépendance internet. Un assistant IA local fonctionne dans les avions, les sous-sols, derrière des pare-feux d’entreprise et dans des environnements air-gapés. Une fois le modèle téléchargé, il tourne entièrement hors ligne.

Pour les secteurs réglementés — santé, juridique, finance — l’IA locale n’est pas juste une préférence, c’est souvent une exigence de conformité. HIPAA, RGPD et diverses réglementations financières imposent des limites strictes sur l’endroit où les données sensibles peuvent être traitées.

Étape 1 : Installer Ollama

Ollama est le moyen le plus simple de faire tourner des grands modèles de langage localement. Il gère les téléchargements de modèles, la quantification et le serving via une API simple que ZeroClaw sait utiliser.

Sur macOS :

```bash brew install ollama ```

Sur Linux :

```bash curl -fsSL https://ollama.com/install.sh | sh ```

Sur Windows, téléchargez l’installateur depuis ollama.com.

Une fois installé, téléchargez un modèle. Pour la plupart des cas d’usage, llama3.1:8b est le bon point de départ — suffisamment capable pour du vrai travail et tourne confortablement sur des machines avec 8 Go de RAM :

```bash ollama pull llama3.1:8b ```

Si vous êtes sur du matériel plus limité, `qwen3:4b` ou `phi3:mini` sont des options plus légères. Avec 16 Go+ de RAM, `llama3.1:70b` (quantifié) vaut le coup.

Étape 2 : Installer ZeroClaw

```bash brew install zeroclaw ```

Ou sur Linux :

```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```

ZeroClaw est un binaire unique. Rien d’autre à installer, aucun runtime à configurer, aucune dépendance à gérer.

Étape 3 : Pointer ZeroClaw vers Ollama

Éditez votre `config.toml` pour dire à ZeroClaw d’utiliser Ollama comme fournisseur IA :

```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```

C’est le seul changement de configuration. Le système de providers de ZeroClaw est conçu pour que passer d’Anthropic à OpenAI, Ollama ou tout autre provider supporté soit un changement d’une ligne.

Étape 4 : Connecter un canal

Ajoutez Telegram comme interface :

```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```

Démarrez ZeroClaw :

```bash zeroclaw start ```

Envoyez un message à votre bot Telegram. La réponse vient d’Ollama qui tourne sur votre machine. Rien ne touche internet sauf l’appel API Telegram pour délivrer le message — le traitement IA réel est entièrement local.

Aller plus loin : le mode hybride

L’IA purement locale a une vraie limitation : les petits modèles ne sont pas aussi capables que les modèles frontier pour les tâches de raisonnement complexe. Le mode hybride de ZeroClaw vous permet d’avoir le meilleur des deux mondes.

```toml [ai] provider = "ollama" model = "llama3.1:8b"

[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```

Avec cette configuration, les questions simples sont traitées localement à coût zéro. Les tâches de raisonnement complexe tombent automatiquement sur Claude. Pour la plupart des utilisateurs, cette approche hybride est le sweet spot pratique : 80–90 % des requêtes traitées localement gratuitement.

Sur quel matériel ça tourne vraiment

Faire tourner ZeroClaw + Ollama avec llama3.1:8b nécessite environ 6 Go de RAM pour le modèle lui-même, plus un négligeable 4 Mo pour ZeroClaw. Une machine avec 8 Go de RAM peut faire tourner la stack complète ; 16 Go est confortable. Le temps de réponse sur un Apple M1 est typiquement de 2–5 secondes.

Un Mac Mini à 200 €, un ThinkPad d’occasion à 50 €, ou une machine que vous possédez déjà — n’importe laquelle peut faire tourner un assistant IA totalement privé 24h/24 avec zéro coût récurrent.

La vue d’ensemble

Le résultat est un assistant IA qui ne sait rien de vous sauf ce que vous lui dites, ne stocke rien sur les serveurs de personne d’autre, et ne coûte rien à faire tourner au-delà de l’électricité pour garder votre machine allumée. Pour quiconque a déjà hésité avant de taper quelque chose de sensible dans une boîte de chat, ça vaut beaucoup.