ZeroClaw + Ollama: Vollständig privaten KI-Agenten in 5 Minuten einrichten

Irgendwann haben die meisten Menschen, die Cloud-KI-Dienste nutzen, einen Moment des Innehaltens. Man tippt eine Frage zu einem medizinischen Symptom, entwirft eine Nachricht zu einer sensiblen Geschäftssituation oder bittet um Hilfe bei Code mit proprietärer Logik – und merkt, dass alles, was man tippt, an einen Server gesendet wird, den man nicht kontrolliert.

ZeroClaw und Ollama zusammen beantworten diese Frage. So richtet man es ein.

Warum Local-First den Aufwand wert ist

Der offensichtliche Vorteil, KI lokal auszuführen, ist Datenschutz: Prompts und Antworten verlassen nie die eigene Maschine. Aber die weniger offensichtlichen Vorteile sind oft genauso überzeugend.

Keine API-Kosten. Cloud-KI-Dienste berechnen pro Token. Für leichte persönliche Nutzung ist das vernachlässigbar. Für ein Unternehmen, das Tausende von Dokumenten verarbeitet, summiert es sich schnell. Ein lokales Modell hat null Grenzkosten pro Anfrage.

Keine Rate-Limits. Cloud-Anbieter drosseln Anfragen. Ein lokales Modell läuft so schnell, wie die Hardware es erlaubt, ohne Warteschlangen, ohne 429-Fehler.

Keine Internetabhängigkeit. Ein lokaler KI-Assistent funktioniert in Flugzeugen, Kellern, hinter Unternehmens-Firewalls und in Air-Gapped-Umgebungen. Einmal heruntergeladen, läuft er vollständig offline.

Für regulierte Branchen – Gesundheitswesen, Recht, Finanzen – ist lokale KI oft eine Compliance-Anforderung. HIPAA, DSGVO und verschiedene Finanzvorschriften setzen strenge Grenzen, wo sensible Daten verarbeitet werden dürfen.

Schritt 1: Ollama installieren

Ollama ist der einfachste Weg, große Sprachmodelle lokal auszuführen. Es verwaltet Modell-Downloads, Quantisierung und Serving über eine einfache API, mit der ZeroClaw kommunizieren kann.

Auf macOS:

```bash brew install ollama ```

Auf Linux:

```bash curl -fsSL https://ollama.com/install.sh | sh ```

Auf Windows den Installer von ollama.com herunterladen.

Nach der Installation ein Modell herunterladen. Für die meisten Anwendungsfälle ist llama3.1:8b der richtige Ausgangspunkt – leistungsfähig genug für echte Arbeit und läuft komfortabel auf Maschinen mit 8 GB RAM:

```bash ollama pull llama3.1:8b ```

Für schwachäre Hardware sind `qwen3:4b` oder `phi3:mini` leichtere Optionen. Mit 16 GB+ RAM und dem Wunsch nach besserer Qualität ist `llama3.1:70b` (quantisiert) einen Versuch wert.

Schritt 2: ZeroClaw installieren

```bash brew install zeroclaw ```

Oder auf Linux:

```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```

ZeroClaw ist ein einzelnes Binary. Nichts weiter zu installieren, kein Runtime zu konfigurieren, keine Abhängigkeiten zu verwalten.

Schritt 3: ZeroClaw auf Ollama zeigen

Die `config.toml` bearbeiten, um ZeroClaw mitzuteilen, Ollama als KI-Anbieter zu verwenden:

```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```

Das ist die einzige Konfigurationsänderung. ZeroCLaws Provider-System ist so konzipiert, dass der Wechsel zwischen Anthropic, OpenAI, Ollama oder einem anderen unterstützten Anbieter eine einzeilige Änderung ist.

Schritt 4: Einen Channel verbinden

Telegram als Interface hinzufügen:

```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```

ZeroClaw starten:

```bash zeroclaw start ```

Eine Nachricht an den Telegram-Bot senden. Die Antwort kommt von Ollama, das auf der eigenen Maschine läuft. Nichts berührt das Internet außer dem Telegram-API-Aufruf zur Nachrichtenzustellung – die eigentliche KI-Verarbeitung ist vollständig lokal.

Weiterführend: Hybrid-Modus

Reine lokale KI hat eine echte Einschränkung: Kleinere Modelle sind bei komplexen Reasoning-Aufgaben nicht so leistungsfähig wie Frontier-Modelle. ZeroCLaws Hybrid-Modus ermöglicht das Beste aus beiden Welten.

```toml [ai] provider = "ollama" model = "llama3.1:8b"

[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```

Mit dieser Konfiguration werden einfache Fragen lokal zu null Kosten beantwortet. Komplexe Reasoning-Aufgaben fallen automatisch auf Claude zurück. Für die meisten Nutzer ist dieser hybride Ansatz der praktische Sweet Spot: 80–90 % der Anfragen werden kostenlos lokal bearbeitet.

Was das wirklich braucht

ZeroClaw + Ollama mit llama3.1:8b benötigt etwa 6 GB RAM für das Modell selbst, plus vernachlässigbare 4 MB für ZeroClaw. Eine Maschine mit 8 GB RAM kann den gesamten Stack ausführen; 16 GB ist komfortabel. Die Antwortzeit auf einem Apple M1 beträgt typischerweise 2–5 Sekunden.

Ein Mac Mini für 200 €, ein gebrauchtes ThinkPad für 50 € oder eine bereits vorhandene Maschine – jede davon kann einen vollständig privaten KI-Assistenten rund um die Uhr mit null laufenden Kosten betreiben.

Das große Bild

Das Ergebnis ist ein KI-Assistent, der nichts über einen weiß außer dem, was man ihm sagt, nichts auf fremden Servern speichert und nichts kostet außer dem Strom, um die Maschine am Laufen zu halten. Für jeden, der jemals vor dem Eintippen von etwas Sensiblem in ein Chat-Fenster gezögert hat, ist das viel wert.