在某個時間點,大多數使用雲端 AI 服務的人都會有一刻停頓。你正在輸入一個關於醫療症狀的問題,或者起草一封關於敏感商業情況的訊息,或者尋求包含專有邏輯的程式碼幫助——然後你意識到你輸入的一切都被發送到你無法控制的伺服器,由一家你從未閱讀過其資料保留政策的公司處理,並且可能被用來訓練未來的模型。
對於許多使用案例來說,這是一個可以接受的取捨。對於許多其他情況,則不然。對於越來越多的開發者來說,問題不是是否使用 AI——而是是否在不交出資料的情況下使用 AI。
ZeroClaw 和 Ollama 一起回答了這個問題。以下是如何設定它。
為什麼本地優先值得這番功夫
在本地執行 AI 的明顯好處是隱私:你的提示和回應永遠不會離開你的機器。但不那麼明顯的好處通常同樣引人注目。
沒有 API 費用。雲端 AI 服務按 token 收費——輸入通常每百萬 token 幾美元,輸出更多。對於輕度個人使用,這可以忽略不計。對於處理數千份文件的企業,或者整天執行 AI 助理的開發者,費用累積得很快。本地模型每次查詢的邊際成本為零。
沒有速率限制。雲端供應商限制請求以管理負載。本地模型以你的硬體允許的速度執行,沒有排隊、沒有 429 錯誤、在尖峰時段也沒有服務降級。
不依賴網路。本地 AI 助理可以在飛機上、地下室、企業防火牆後面,以及禁止雲端存取的隔離環境中工作。一旦模型下載完成,它完全離線執行。
對於受監管的行業——醫療、法律、金融——本地 AI 不只是偏好,通常是合規要求。HIPAA、GDPR 和各種金融法規對敏感資料可以在哪裡處理有嚴格限制。本地模型完全繞過了這些顧慮。
步驟一:安裝 Ollama
Ollama 是在本地執行大型語言模型最簡單的方式。它處理模型下載、量化,並通過 ZeroClaw 知道如何與之通訊的簡單 API 提供服務。
在 macOS 上:
```bash brew install ollama ```
在 Linux 上:
```bash curl -fsSL https://ollama.com/install.sh | sh ```
在 Windows 上,從 ollama.com 下載安裝程式。
安裝完成後,拉取一個模型。對於大多數使用案例,llama3.1:8b 是正確的起點——它對於實際工作來說足夠強大,並且可以在擁有 8GB 記憶體的機器上舒適地執行:
```bash ollama pull llama3.1:8b ```
如果你的硬體較低階,`qwen3:4b` 或 `phi3:mini` 是更輕量的選項,仍然可以很好地處理大多數任務。如果你有一台擁有 16GB 以上記憶體的機器並且想要更好的品質,`llama3.1:70b`(量化版)值得一試。
步驟二:安裝 ZeroClaw
```bash brew install zeroclaw ```
或在 Linux 上:
```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```
ZeroClaw 是一個單一二進位檔。沒有其他東西需要安裝,沒有執行環境需要設定,沒有相依性需要管理。
步驟三:將 ZeroClaw 指向 Ollama
編輯你的 `config.toml` 告訴 ZeroClaw 使用 Ollama 作為其 AI 供應商:
```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```
這就是整個設定變更。ZeroClaw 的供應商系統設計使得在 Anthropic、OpenAI、Ollama 或任何其他支援的供應商之間切換只需一行變更。不需要修改程式碼,不需要重新編譯,不需要安裝外掛。
步驟四:連接頻道
將 Telegram 新增為你的介面——它可以在每台裝置上使用,有一個好用的行動應用程式,而且 ZeroClaw 的 Telegram 整合已經很成熟:
```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```
啟動 ZeroClaw:
```bash zeroclaw start ```
向你的 Telegram 機器人發送訊息。回應來自在你機器上執行的 Ollama。除了傳遞訊息的 Telegram API 呼叫之外,沒有任何東西接觸網路——實際的 AI 處理完全在本地進行。
更進一步:混合模式
純本地 AI 有一個真正的限制:較小的模型在複雜推理任務上不如 Claude 或 GPT-4 等前沿模型強大。ZeroClaw 的混合模式讓你可以兩全其美。
```toml [ai] provider = "ollama" model = "llama3.1:8b"
[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```
有了這個設定,簡單的問題——「法國的首都是什麼?」、「總結這段文字」、「寫一個電子郵件地址的正規表示式」——在本地以零成本處理。本地模型難以應付的複雜推理任務會自動回退到 Claude。你控制邊界在哪裡。對於大多數使用者來說,這種混合方式是實際的最佳點:80-90% 的查詢免費在本地處理,需要時雲端回退可用。
實際上跑在什麼硬體上
使用 llama3.1:8b 執行 ZeroClaw + Ollama 需要大約 6GB 記憶體用於模型本身,加上 ZeroClaw 可以忽略不計的 4MB。擁有 8GB 記憶體的機器可以執行完整的堆疊;16GB 很舒適。在 Apple M1 上,典型查詢的回應時間通常為 2-5 秒。在配備獨立 GPU 的現代機器上,速度更快。
一台 200 美元的 Mac Mini、一台 50 美元的二手 ThinkPad,或者你已經擁有的機器——這些都可以以零持續成本全天候執行完全私密的 AI 助理。與雲端 AI 訂閱相比,硬體在幾個月內就能回本。
更大的圖景
「AI 需要雲端」的說法在 2023 年是有道理的,當時在本地執行一個有能力的模型需要昂貴的硬體和大量的技術專業知識。現在已經不再如此。Ollama 讓本地模型變得易於使用。ZeroClaw 讓將它們連接到你的日常工作流程變得輕而易舉。
結果是一個 AI 助理,除了你告訴它的之外對你一無所知,不在任何人的伺服器上儲存任何東西,除了讓你的機器保持開機的電費之外不需要任何費用。對於任何曾經在輸入敏感內容到聊天框之前猶豫過的人來說,這很值得。