第一次搭本地 AI 智能体的人,问得最多的问题不是关于软件,而是关于硬件。"我该买什么?"老实说,取决于你想干嘛。
10 美元的树莓派能跑 ZeroClaw 加一个小模型。800 美元的工作站能跑 700 亿参数的模型,速度跟聊天差不多。这两个极端之间有很多实用的甜蜜点,但网上的推荐不是最便宜就是最贵,中间地带反而被忽略了。
逐档来看。
第一档:50 美元以下——最低可用配置
硬件: Raspberry Pi 4(4GB)或 Pi Zero 2 W
能得到什么: ZeroClaw 跑得很丝滑——3.4MB 二进制,不到 5MB 内存,秒启动。但纯 CPU 跑推理很慢。量化过的 1.5B 模型(比如 Qwen2.5:1.5b)大概 2-4 tokens/秒。4B 模型就基本不能用了,不到 1 tok/秒。
适合: 把 ZeroClaw 当轻量级智能体运行时,推理交给云端 API(OpenAI、Anthropic 等)。树莓派负责智能体逻辑、频道管理和记忆——云端负责推理。个人用的话 API 费用通常每月 5-15 美元。
模型建议: 这个价位别在本地跑模型。用云端服务,把树莓派当成你的永远在线的智能体运行环境。
实际花费: Pi 4 4GB(35 美元)+ 外壳(5 美元)+ 电源(8 美元)+ SD 卡(8 美元)= 大约 56 美元,再加每月 API 费用。
第二档:150-250 美元——边缘 AI 的最佳性价比
硬件: Raspberry Pi 5(8GB)+ AI HAT+ 2
能得到什么: 40 TOPS 的专用 AI 推理能力。量化 8B 模型跑 12-15 tokens/秒——聊天够用了。4B 模型能到 22-28 tok/秒。HAT+ 2 自带 8GB LPDDR4X 专用内存,模型不跟系统抢内存。
适合: 完全离线的、永远在线的 AI 助手。不依赖云端,不花 API 费用,数据不离开你的网络。家庭自动化、家庭助手、注重隐私的场景都很合适。
- •通用:llama3.1:8b(Q4_K_M 量化)
- •快速响应:gemma3:4b
- •编程辅助:qwen2.5-coder:7b
实际花费: Pi 5 8GB(80 美元)+ AI HAT+ 2(130 美元)+ 外壳 + 电源 + 存储 = 大约 230 美元。后续零成本。
第三档:300-500 美元——二手显卡的快乐
硬件: 任意台式机或迷你主机 + 二手 NVIDIA RTX 3090
能得到什么: 24GB 显存打开了一个完全不同的模型级别。量化 30B 模型跑 20+ tok/秒,量化 70B 模型跑 8-12 tok/秒。从 8B 到 30B+ 的质量跃升是实打实的——更长的上下文理解、更强的推理、更少的幻觉。
RTX 3090 是 2026 年二手市场上性价比最高的 AI 卡。原价 1500 美元,现在二手 250-350 美元。同价位没有任何卡能比 24GB 显存。
适合: 想要接近前沿模型质量又不想花云端费用的进阶用户。拿 AI 助手写代码的开发者。共享本地推理服务的小团队。
- •通用:deepseek-v3.2:32b(Q4_K_M)
- •编程:qwen2.5-coder:32b
- •最高质量:llama3.1:70b(Q3_K_M——能塞进 24GB,慢但效果好)
实际花费: 二手台式机(100-150 美元)+ 二手 RTX 3090(300 美元)= 大约 400-450 美元。满载功耗约 300W。
第四档:500-800 美元——当代甜蜜点
硬件: 台式机或迷你主机 + NVIDIA RTX 4070 Ti Super(16GB 显存)或 RTX 4080 Super(16GB)
能得到什么: 新一代架构,每 TOPS 推理速度比 3090 更快,能效更好,硬件加速量化支持。16GB 显存舒服地跑 30B 模型。32B Q4 模型推理速度:25-35 tok/秒。
跟 3090 的取舍:显存少(16GB vs 24GB),但每 token 推理更快、功耗更低、驱动支持更新。
适合: 日常使用的 AI 工作站。同时跑多个模型(小模型处理简单问题,大模型处理复杂任务)。AI 辅助的软件开发。
- •通用:deepseek-v3.2:32b(Q4_K_M)——16GB 卡的当前质量冠军
- •编程:qwen2.5-coder:32b(Q4_K_M)
- •快速:llama3.1:8b 处理简单问题(这些卡上跑 80+ tok/秒)
实际花费: RTX 4070 Ti Super(新品 500-550 美元)装进现有台式机,或大约 800 美元组一台完整机器。
第五档:800 美元以上——本地性能天花板
硬件: 双显卡配置、RTX 4090(24GB)或 RTX 5090(32GB)
能得到什么: RTX 4090 的 24GB 跑量化 70B 模型 15-20 tok/秒——跟云端 API 响应速度差不多。RTX 5090 的 32GB 能用更高的量化精度换更好的质量。双 3090(通过张量并行合计 48GB)可以跑全精度 30B 模型或高度量化的 100B+ 模型。
适合: 研究用途、不能依赖云端的业务关键 AI 负载、5-10 人团队共享推理基础设施。
- •RTX 4090:llama3.1:70b(Q4_K_M)全速运行
- •双 3090:llama3.1:70b(Q5_K_M)更好的质量
- •RTX 5090:能塞进去的最大模型配最高量化精度
决策框架
别买过头。正确的档位取决于三个问题:
- •不需要 → 第一档(50 美元树莓派 + 云端 API)性价比最高
- •需要 → 第二档起,根据质量需求选
- •基础辅助(问答、简单任务)→ 4B-8B 模型,第二档
- •全面可用的质量 → 30B 模型,第三到四档
- •前沿级推理 → 70B+ 模型,第五档
- •就你自己 → 第二到三档
- •小团队(2-5 人)→ 第四档
- •更大的团队或生产环境 → 第五档
ZeroClaw 因素
所有档位有一个共同点:ZeroClaw 的开销可以忽略不计。3.4MB 二进制、不到 5MB 内存,在任何档位都是舍入误差级别的资源占用。整个硬件预算都花在模型推理上,不浪费在框架开销上。
在第一档硬件上,每一兆字节都很宝贵,这个差距决定了你能不能跑一个有用的智能体还是直接内存溢出。在第五档硬件上,这意味着你 800 美元的投资几乎全部用于 AI 性能,不会浪费在运行时膨胀上。
买匹配你用途的硬件就好。让运行时本身退到幕后。