用过云端 AI 服务的人,大概都有过那么一个停顿的瞬间。你正在输入一个关于健康症状的问题,或者在起草一封涉及敏感业务的邮件,或者在寻求帮助处理包含专有逻辑的代码——然后你意识到,你输入的一切都被发送到了一台你无法控制的服务器上,被一家你从未读过其数据保留政策的公司处理,并且可能被用来训练未来的模型。
对很多使用场景来说,这是可以接受的权衡。对很多其他场景来说,则不然。对越来越多的开发者来说,问题不是要不要用 AI,而是能不能在不交出数据的情况下用 AI。
ZeroClaw 和 Ollama 一起回答了这个问题。下面是怎么搭建的。
为什么本地优先值得折腾
本地运行 AI 最显而易见的好处是隐私:你的提示词和响应永远不会离开你的机器。但不那么显眼的好处往往同样有说服力。
没有 API 费用。云端 AI 服务按 token 收费——输入通常是每百万 token 几美元,输出更贵。对于轻度个人使用,这可以忽略不计。对于处理数千份文档的企业,或者整天运行 AI 助手的开发者,费用会快速累积。本地模型每次查询的边际成本为零。
没有速率限制。云端提供商会限制请求来管理负载。本地模型以你的硬件允许的速度运行,没有排队,没有 429 错误,没有高峰期的服务降级。
没有网络依赖。本地 AI 助手在飞机上、地下室里、企业防火墙后面,以及禁止云端访问的隔离环境中都能工作。模型下载完成后,完全离线运行。
对于受监管的行业——医疗、法律、金融——本地 AI 不只是偏好,通常是合规要求。HIPAA、GDPR 以及各种金融法规对敏感数据可以在哪里处理有严格限制。本地模型完全绕开了这些顾虑。
第一步:安装 Ollama
Ollama 是本地运行大语言模型最简单的方式。它处理模型下载、量化,并通过 ZeroClaw 知道如何对话的简单 API 提供服务。
macOS:
```bash brew install ollama ```
Linux:
```bash curl -fsSL https://ollama.com/install.sh | sh ```
Windows 从 ollama.com 下载安装程序。
安装完成后,拉取一个模型。对大多数使用场景,llama3.1:8b 是正确的起点——它足够强大可以处理真实工作,并且在 8GB RAM 的机器上运行流畅:
```bash ollama pull llama3.1:8b ```
如果你的硬件配置较低,`qwen3:4b` 或 `phi3:mini` 是更轻量的选项,仍然能处理大多数任务。如果你有 16GB+ RAM 的机器并且想要更好的质量,`llama3.1:70b`(量化版)值得一试。
第二步:安装 ZeroClaw
```bash brew install zeroclaw ```
或者在 Linux 上:
```bash curl -fsSL https://raw.githubusercontent.com/zeroclaw-labs/zeroclaw/main/scripts/bootstrap.sh | bash ```
ZeroClaw 是单个二进制文件。没有其他需要安装的东西,没有需要配置的运行时,没有需要管理的依赖。
第三步:让 ZeroClaw 指向 Ollama
编辑你的 `config.toml`,告诉 ZeroClaw 使用 Ollama 作为 AI 提供商:
```toml [ai] provider = "ollama" model = "llama3.1:8b" endpoint = "http://localhost:11434" ```
这就是全部的配置变更。ZeroClaw 的提供商系统设计使得在 Anthropic、OpenAI、Ollama 或任何其他支持的提供商之间切换只需改一行。不需要修改代码,不需要重新编译,不需要安装插件。
第四步:连接一个频道
添加 Telegram 作为你的交互界面——它在每台设备上都能用,有不错的移动应用,而且 ZeroClaw 的 Telegram 集成很成熟:
```toml [channels.telegram] token = "YOUR_BOT_TOKEN" allowed_users = [123456789] ```
启动 ZeroClaw:
```bash zeroclaw start ```
给你的 Telegram 机器人发一条消息。响应来自在你机器上运行的 Ollama。除了传递消息的 Telegram API 调用之外,没有任何东西接触互联网——实际的 AI 处理完全在本地进行。
进阶:混合模式
纯本地 AI 有一个真实的局限:对于复杂推理任务,较小的模型不如 Claude 或 GPT-4 这样的前沿模型强大。ZeroClaw 的混合模式让你两全其美。
```toml [ai] provider = "ollama" model = "llama3.1:8b"
[ai.fallback] provider = "anthropic" model = "claude-sonnet-4-20250514" trigger = "complexity_threshold" ```
有了这个配置,简单问题——"法国的首都是哪里?"、"总结这段话"、"写一个匹配邮件地址的正则表达式"——在本地零成本处理。本地模型难以应对的复杂推理任务会自动回退到 Claude。你控制边界在哪里。对大多数用户来说,这种混合方式是实用的最佳点:80-90% 的查询免费在本地处理,真正需要的情况下云端回退可用。
实际跑在什么硬件上
用 llama3.1:8b 运行 ZeroClaw + Ollama 需要大约 6GB RAM 用于模型本身,加上 ZeroClaw 可以忽略不计的 4MB。8GB RAM 的机器可以运行完整的技术栈;16GB 很舒适。在 Apple M1 上,典型查询的响应时间通常是 2-5 秒。在有独立 GPU 的现代机器上更快。
一台 $200 的 Mac Mini、一台 $50 的二手 ThinkPad,或者你已经拥有的机器——这些都可以 24/7 运行一个完全私有的 AI 助手,零持续成本。与云端 AI 订阅相比,硬件几个月就能回本。
更大的图景
"AI 需要云端"这个叙事在 2023 年是有道理的,那时候本地运行一个有能力的模型需要昂贵的硬件和相当的技术专业知识。现在不再是这样了。Ollama 让本地模型变得触手可及。ZeroClaw 让把它们连接到你的日常工作流变得轻而易举。
结果是一个 AI 助手,除了你告诉它的之外对你一无所知,不在任何人的服务器上存储任何东西,除了让你的机器保持开机的电费之外运行成本为零。对于任何曾经在输入敏感内容之前犹豫过的人来说,这很值得。