AI 智能体硬件指南：从 10 美元树莓派到 800 美元 GPU 工作站

第一次搭本地 AI 智能体的人，问得最多的问题不是关于软件，而是关于硬件。"我该买什么？"老实说，取决于你想干嘛。

10 美元的树莓派能跑 ZeroClaw 加一个小模型。800 美元的工作站能跑 700 亿参数的模型，速度跟聊天差不多。这两个极端之间有很多实用的甜蜜点，但网上的推荐不是最便宜就是最贵，中间地带反而被忽略了。

逐档来看。

第一档：50 美元以下——最低可用配置

硬件： Raspberry Pi 4（4GB）或 Pi Zero 2 W

能得到什么： ZeroClaw 跑得很丝滑——3.4MB 二进制，不到 5MB 内存，秒启动。但纯 CPU 跑推理很慢。量化过的 1.5B 模型（比如 Qwen2.5:1.5b）大概 2-4 tokens/秒。4B 模型就基本不能用了，不到 1 tok/秒。

适合： 把 ZeroClaw 当轻量级智能体运行时，推理交给云端 API（OpenAI、Anthropic 等）。树莓派负责智能体逻辑、频道管理和记忆——云端负责推理。个人用的话 API 费用通常每月 5-15 美元。

模型建议： 这个价位别在本地跑模型。用云端服务，把树莓派当成你的永远在线的智能体运行环境。

实际花费： Pi 4 4GB（35 美元）+ 外壳（5 美元）+ 电源（8 美元）+ SD 卡（8 美元）= 大约 56 美元，再加每月 API 费用。

第二档：150-250 美元——边缘 AI 的最佳性价比

硬件： Raspberry Pi 5（8GB）+ AI HAT+ 2

能得到什么： 40 TOPS 的专用 AI 推理能力。量化 8B 模型跑 12-15 tokens/秒——聊天够用了。4B 模型能到 22-28 tok/秒。HAT+ 2 自带 8GB LPDDR4X 专用内存，模型不跟系统抢内存。

适合： 完全离线的、永远在线的 AI 助手。不依赖云端，不花 API 费用，数据不离开你的网络。家庭自动化、家庭助手、注重隐私的场景都很合适。

•通用：llama3.1:8b（Q4_K_M 量化）
•快速响应：gemma3:4b
•编程辅助：qwen2.5-coder:7b

实际花费： Pi 5 8GB（80 美元）+ AI HAT+ 2（130 美元）+ 外壳 + 电源 + 存储 = 大约 230 美元。后续零成本。

第三档：300-500 美元——二手显卡的快乐

硬件： 任意台式机或迷你主机 + 二手 NVIDIA RTX 3090

能得到什么： 24GB 显存打开了一个完全不同的模型级别。量化 30B 模型跑 20+ tok/秒，量化 70B 模型跑 8-12 tok/秒。从 8B 到 30B+ 的质量跃升是实打实的——更长的上下文理解、更强的推理、更少的幻觉。

RTX 3090 是 2026 年二手市场上性价比最高的 AI 卡。原价 1500 美元，现在二手 250-350 美元。同价位没有任何卡能比 24GB 显存。

适合： 想要接近前沿模型质量又不想花云端费用的进阶用户。拿 AI 助手写代码的开发者。共享本地推理服务的小团队。

•通用：deepseek-v3.2:32b（Q4_K_M）
•编程：qwen2.5-coder:32b
•最高质量：llama3.1:70b（Q3_K_M——能塞进 24GB，慢但效果好）

实际花费： 二手台式机（100-150 美元）+ 二手 RTX 3090（300 美元）= 大约 400-450 美元。满载功耗约 300W。

第四档：500-800 美元——当代甜蜜点

硬件： 台式机或迷你主机 + NVIDIA RTX 4070 Ti Super（16GB 显存）或 RTX 4080 Super（16GB）

能得到什么： 新一代架构，每 TOPS 推理速度比 3090 更快，能效更好，硬件加速量化支持。16GB 显存舒服地跑 30B 模型。32B Q4 模型推理速度：25-35 tok/秒。

跟 3090 的取舍：显存少（16GB vs 24GB），但每 token 推理更快、功耗更低、驱动支持更新。

适合： 日常使用的 AI 工作站。同时跑多个模型（小模型处理简单问题，大模型处理复杂任务）。AI 辅助的软件开发。

•通用：deepseek-v3.2:32b（Q4_K_M）——16GB 卡的当前质量冠军
•编程：qwen2.5-coder:32b（Q4_K_M）
•快速：llama3.1:8b 处理简单问题（这些卡上跑 80+ tok/秒）

实际花费： RTX 4070 Ti Super（新品 500-550 美元）装进现有台式机，或大约 800 美元组一台完整机器。

第五档：800 美元以上——本地性能天花板

硬件： 双显卡配置、RTX 4090（24GB）或 RTX 5090（32GB）

能得到什么： RTX 4090 的 24GB 跑量化 70B 模型 15-20 tok/秒——跟云端 API 响应速度差不多。RTX 5090 的 32GB 能用更高的量化精度换更好的质量。双 3090（通过张量并行合计 48GB）可以跑全精度 30B 模型或高度量化的 100B+ 模型。

适合： 研究用途、不能依赖云端的业务关键 AI 负载、5-10 人团队共享推理基础设施。

•RTX 4090：llama3.1:70b（Q4_K_M）全速运行
•双 3090：llama3.1:70b（Q5_K_M）更好的质量
•RTX 5090：能塞进去的最大模型配最高量化精度

决策框架

别买过头。正确的档位取决于三个问题：

•不需要 → 第一档（50 美元树莓派 + 云端 API）性价比最高
•需要 → 第二档起，根据质量需求选

•基础辅助（问答、简单任务）→ 4B-8B 模型，第二档
•全面可用的质量 → 30B 模型，第三到四档
•前沿级推理 → 70B+ 模型，第五档

•就你自己 → 第二到三档
•小团队（2-5 人）→ 第四档
•更大的团队或生产环境 → 第五档

ZeroClaw 因素

所有档位有一个共同点：ZeroClaw 的开销可以忽略不计。3.4MB 二进制、不到 5MB 内存，在任何档位都是舍入误差级别的资源占用。整个硬件预算都花在模型推理上，不浪费在框架开销上。

在第一档硬件上，每一兆字节都很宝贵，这个差距决定了你能不能跑一个有用的智能体还是直接内存溢出。在第五档硬件上，这意味着你 800 美元的投资几乎全部用于 AI 性能，不会浪费在运行时膨胀上。

买匹配你用途的硬件就好。让运行时本身退到幕后。