ZeroClaw + Ollama：5分で完全プライベートなAIエージェントを動かす

クラウドAIサービスを使っていると、ある瞬間に立ち止まることがある。医療症状について質問を入力しているとき、センシティブなビジネス状況についてのメッセージを下書きしているとき、独自ロジックを含むコードのヘルプを求めているとき——自分が入力しているすべてが、自分でコントロールできないサーバーに送られ、データ保持ポリシーを一度も読んだことのない会社によって処理され、将来のモデルのトレーニングに使われる可能性があることに気づく。

多くのユースケースでは、それは許容できるトレードオフだ。多くの他のケースでは、そうではない。そして増え続ける開発者にとって、問題はAIを使うかどうかではなく——データを渡さずにAIを使えるかどうかだ。

ZeroClawとOllamaを組み合わせれば、その答えが出る。セットアップ方法を説明しよう。

ローカルファーストが手間をかける価値がある理由

AIをローカルで動かす明らかなメリットはプライバシーだ：プロンプトとレスポンスがマシンから出ない。しかし、あまり語られないメリットも同様に魅力的なことが多い。

APIコストがかからない。クラウドAIサービスはトークンごとに課金する——入力は通常100万トークンあたり数ドル、出力はそれ以上。個人の軽い利用なら無視できる。しかし何千もの文書を処理するビジネスや、一日中AIアシスタントを使う開発者にとっては、積み重なる。ローカルモデルはクエリあたりの限界コストがゼロだ。

レート制限がない。クラウドプロバイダーは負荷管理のためにリクエストをスロットルする。ローカルモデルはハードウェアが許す限り速く動き、キューイングなし、429エラーなし、ピーク時のサービス低下なし。

インターネット依存がない。ローカルAIアシスタントは飛行機の中でも、地下室でも、企業のファイアウォールの内側でも、クラウドアクセスが禁止されたエアギャップ環境でも動く。モデルをダウンロードしたら、完全にオフラインで動作する。

そして医療、法律、金融などの規制産業では、ローカルAIは単なる好みではなく、コンプライアンス要件であることが多い。HIPAA、GDPR、各種金融規制は機密データを処理できる場所に厳しい制限を設けている。ローカルモデルはそれらの懸念を完全に回避する。

ステップ1：Ollamaをインストール

Ollamaは大規模言語モデルをローカルで動かす最も簡単な方法だ。モデルのダウンロード、量子化、ZeroClawが話しかけ方を知っているシンプルなAPIを通じたサービング処理を担当する。

macOSの場合：

```bash brew install ollama ```

Linuxの場合：

```bash curl -fsSL https://ollama.com/install.sh | sh ```

Windowsの場合は、ollama.comからインストーラーをダウンロード。

インストールしたら、モデルをプル。ほとんどのユースケースでは、llama3.1:8bが適切な出発点だ——実際の作業に十分な能力があり、8GBのRAMを持つマシンで快適に動く：

```bash ollama pull llama3.1:8b ```

ローエンドのハードウェアなら、`qwen3:4b`や`phi3:mini`はほとんどのタスクをこなせる軽量な選択肢だ。16GB以上のRAMを持つマシンでより高品質を求めるなら、`llama3.1:70b`（量子化版）を試す価値がある。

ステップ2：ZeroClawをインストール

```bash brew install zeroclaw ```

またはLinuxの場合：

```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```

ZeroClawはシングルバイナリだ。他にインストールするものはなく、設定するランタイムもなく、管理する依存関係もない。

ステップ3：ZeroClawをOllamaに向ける

`config.toml`を編集して、ZeroClawにOllamaをAIプロバイダーとして使うよう指示する：

```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```

設定変更はこれだけだ。ZeroClawのプロバイダーシステムは、Anthropic、OpenAI、Ollama、その他サポートされているプロバイダー間の切り替えが1行の変更で済むよう設計されている。コード変更なし、再コンパイルなし、インストールするプラグインなし。

ステップ4：チャンネルを接続する

インターフェースとしてTelegramを追加する——すべてのデバイスで動き、モバイルアプリが優秀で、ZeroClawのTelegram統合は成熟している：

```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```

ZeroClawを起動：

```bash zeroclaw start ```

Telegramボットにメッセージを送る。レスポンスはマシン上で動いているOllamaから来る。メッセージを届けるためのTelegram APIコール以外、インターネットには何も触れない——実際のAI処理は完全にローカルだ。

さらに進む：ハイブリッドモード

純粋なローカルAIには一つの実際の制限がある：小さいモデルは複雑な推論タスクでClaudeやGPT-4のようなフロンティアモデルほど優秀ではない。ZeroClawのハイブリッドモードは両方のいいとこ取りができる。

```toml [ai] provider = "ollama" model = "llama3.1:8b"

[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```

この設定では、シンプルな質問——「フランスの首都は？」「この段落を要約して」「メールアドレスの正規表現を書いて」——はゼロコストでローカルに処理される。ローカルモデルが苦手な複雑な推論タスクは自動的にClaudeにフォールバックする。境界をどこに設定するかはあなたが決める。ほとんどのユーザーにとって、このハイブリッドアプローチが実用的なスイートスポットだ：80〜90%のクエリが無料でローカルに処理され、本当に必要なケースにはクラウドフォールバックが使える。

実際に何で動くのか

ZeroClaw + Ollamaをllama3.1:8bで動かすには、モデル自体に約6GBのRAMが必要で、ZeroClawには無視できる4MBが加わる。8GBのRAMを持つマシンでフルスタックが動く；16GBは余裕がある。Apple M1での典型的なクエリのレスポンスタイムは通常2〜5秒。ディスクリートGPUを持つ最新マシンではより速い。

200ドルのMac Mini、50ドルの中古ThinkPad、すでに持っているマシン——これらのどれでも、ランニングコストゼロで24時間365日完全プライベートなAIアシスタントを動かせる。クラウドAIサブスクリプションと比べると、ハードウェアは数ヶ月で元が取れる。

大きな絵

「AIにはクラウドが必要」というナラティブは2023年には意味があった——ローカルで有能なモデルを動かすには高価なハードウェアと相当な技術的専門知識が必要だった。もはやそうではない。Ollamaがローカルモデルをアクセシブルにした。ZeroClawがそれを日常のワークフローに接続することを簡単にした。

結果は、あなたについてあなたが伝えたこと以外何も知らず、誰かのサーバーに何も保存せず、マシンを動かす電気代以外何もコストがかからないAIアシスタントだ。チャットボックスに何か機密なことを入力する前に躊躇したことがある人にとって、それは大きな価値がある。