KI selbst hosten 2026: Der vollständige Privacy-First-Stack

Vor ein paar Jahren bedeutete KI selbst hosten, ein 7B-Parameter-Modell auf einer 3.000-Euro-Workstation auszuführen und 30 Sekunden auf jede Antwort zu warten. Das hat sich geändert.

In 2026 ist Self-Hosting von KI eine praktische Wahl, die von echten Bedenken getrieben wird: Datenhoheit, DSGVO-Compliance, Schutz von Unternehmens-IP und der einfache Wunsch, eigene Tools zu besitzen statt zu mieten. So baut man den vollständigen Stack.

Die drei Komponenten

Die Architektur besteht aus drei Tools, von denen jedes eine Sache gut macht.

ZeroClaw ist die KI-Agent-Runtime. Es verwaltet Nachrichten-Routing über Chat-Channels, verwaltet Gesprächsspeicher in einer lokalen SQLite-Datenbank und führt Tools aus. Es verwendet 4 MB RAM und wird als einzelnes Binary ausgeliefert.

Ollama ist der lokale LLM-Server. Es lädt und verwaltet Open-Weight-Modelle, behandelt Quantisierung automatisch und stellt eine einfache API bereit, mit der ZeroClaw kommunizieren kann.

Tailscale ist die sichere Netzwerkschicht. Es erstellt ein verschlüsseltes WireGuard-Mesh zwischen Geräten, sodass man von überall auf der Welt auf den KI-Assistenten zugreifen kann, ohne Ports ins Internet zu exponieren.

Hardware wählen

Im Budget-Bereich (50–100 €) kann ein Raspberry Pi 5 mit 8 GB RAM kleine Modelle im 1,5B–4B-Parameter-Bereich ausführen. Ein altes Laptop mit 16 GB RAM verarbeitet 7B–8B-Parameter-Modelle gut.

Im mittleren Bereich (200–400 €) ist ein Mac Mini M2 schwer zu schlagen. Er ist leise, verbraucht minimalen Strom und verarbeitet 8B–13B-Parameter-Modelle komfortabel.

Für beste Performance (500 €+) bietet jede Maschine mit einer NVIDIA RTX 3060 oder besser schnelle Inferenz auf großen Modellen.

Schritt 1: Ollama einrichten

```bash curl -fsSL https://ollama.com/install.sh | sh

ollama pull llama3.1:8b ollama pull qwen3:8b ollama pull deepseek-r1:7b ```

Vor dem Weitermachen verifizieren: `ollama run llama3.1:8b "Hallo"`. Wenn eine Antwort kommt, ist Ollama bereit.

Schritt 2: ZeroClaw installieren und konfigurieren

```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```

```~/.config/zeroclaw/config.toml` konfigurieren:

```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434"

[memory] backend = "sqlite" path = "~/.local/share/zeroclaw/memory.db"

[channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```

Mit `zeroclaw start` starten. Jetzt läuft ein funktionierender privater KI-Assistent – aber nur im lokalen Netzwerk erreichbar.

Schritt 3: Sicherer Remote-Zugriff mit Tailscale

```bash curl -fsSL https://tailscale.com/install.sh | sh sudo tailscale up tailscale ip -4 ```

Tailscale auch auf Telefon und Laptop installieren. Sobald alle Geräte im selben Tailscale-Netzwerk sind, können sie sich sicher über jede Internetverbindung erreichen – Heim-WLAN, mobile Daten, Café-Netzwerke, Unternehmensnetzwerke. Keine Ports ins Internet exponiert.

Was man wirklich bekommt

Das praktische Ergebnis dieses Stacks ist ein KI-Assistent, der sich wie ein Cloud-Dienst verhält, aber vollständig auf eigener Hardware läuft. Prompts und Antworten verlassen nie das eigene Netzwerk. Der Gesprächsverlauf liegt in einer SQLite-Datei auf der eigenen Maschine.

Der Kostenvergleich ist eindeutig. ChatGPT Plus und Claude Pro kosten beide 20 €/Monat pro Person. Self-Hosting auf einem Raspberry Pi 5 kostet etwa 2 €/Monat an Strom. Auf einem Mac Mini etwa 5 €/Monat. Über ein Jahr sind das 180–230 € Ersparnis pro Person bei vollständiger Datenkontrolle.

Die Wartung ist minimal. ZeroClaw aktualisiert sich mit einem einzigen Befehl. Ollama aktualisiert Modelle mit `ollama pull`. Der gesamte Zustand sind zwei Dateien: `memory.db` und `config.toml`.

Für wen dieser Stack gedacht ist

Dieses Setup macht am meisten Sinn für Entwickler, die an proprietären Codebasen arbeiten und nicht wollen, dass ihr Code über Drittanbieter-Server geht. Für kleine Unternehmen, die sensible Kundendaten verarbeiten. Für Gesundheits- und Rechtsexperten mit Compliance-Anforderungen.

Die Tools sind ausgereift, die Einrichtung dauert etwa 15 Minuten, und das Ergebnis ist ein KI-Assistent, den man vollständig besitzt.