Ollama 的模型库已经膨胀到几百个模型。选择悖论是真实存在的——翻列表你会在每个尺寸区间找到几十个模型,每个都声称自己在某方面最强。
我们测试了对实际 AI 智能体有用的模型。不是基准跑分排行榜——而是真实世界的可用性。这个模型能不能有帮助地回答问题?能不能写出能跑的代码?能不能可靠地遵循指令?幻觉频不频繁?
以下是值得跑的十个模型,按参数量排序。
1. Qwen2.5:1.5b——生存模型
大小: 1.1GB | 需要内存: 2GB | CPU 速度: 15-25 tok/s
当你几乎没有资源——Pi Zero、老笔记本、2GB 内存的容器——这是仍然能工作的模型。它不聪明。不有创意。但它能遵循简单指令,回答基础事实问题,做基本的文本处理。
适合: IoT 设备、超轻量智能体、内存严重受限的设备。把它想成一个稍微聪明一点的命令解析器,而不是对话助手。
评价: 就这个体量来说功能出乎意料。不能替代真正的对话伙伴,但"把这段文字转成 JSON 对象"和"总结一下这段话"搞得很靠谱。
2. Gemma 3 4B——速度之王
大小: 2.8GB | 需要内存: 4GB | GPU 速度: 40-60 tok/s
谷歌最小的有竞争力的模型。在 Pi 5 + AI HAT+ 2 上跑 22-28 tok/s——快到响应感觉是即时的。在任何现代 GPU 上基本是零延迟。
适合: 响应速度比深度更重要的快速查询。在双模型 ZeroClaw 配置中做"快模型"很好,处理简单问题,复杂的交给大模型。
评价: 4GB 以下对速度敏感部署的最佳模型。质量比 8B 低一档,但日常助手 80% 的任务够用。
3. Llama 3.1 8B Instruct——全能选手
大小: 4.7GB | 需要内存: 6GB | GPU 速度: 30-45 tok/s
被推荐是有原因的。Meta 的指令微调 8B 模型在质量和大小之间找到了难以超越的平衡。指令遵循好,长文本连贯,多轮对话不丢上下文,事实知识扎实。
适合: 通用 AI 助手、家庭场景、个人生产力。这是让自托管 AI 在日常使用中感觉可行的模型。
评价: 如果只下载一个模型,就它了。稳定,在中等硬件上够快,大多数任务够好。
4. Qwen3-8B——推理升级
大小: 4.9GB | 需要内存: 6GB | GPU 速度: 28-40 tok/s
阿里巴巴最新的 8B 模型,推理能力改进。跟 Llama 3.1 8B 正面比,Qwen3-8B 在数学题、逻辑推理和结构化分析上输出更好。创意写作和对话流畅度略逊。
适合: 需要思考的任务——数据分析、代码审查、问题分解。当准确性比自然度更重要时选它代替 Llama 3.1 8B。
评价: 分析任务的最佳 8B 模型。在路由配置中跟 Llama 3.1 8B 搭配,两全其美。
5. Qwen2.5-Coder 7B——代码专家
大小: 4.4GB | 需要内存: 6GB | GPU 速度: 30-45 tok/s
专门为代码生成和理解构建。在编程基准测试上超过两倍大小的模型——Python、JavaScript、Rust、Go 和 SQL 的代码生成比同体量任何通用模型都更可靠。
适合: 开发者助手、代码审查智能体、编程辅导。如果主要场景是编程辅助,这个模型的每参数回报比其他都高。
评价: 开发者必备。作为专用编程模型,搭配通用模型处理其他任务。
6. GLM-4-9B-0414——多语言冠军
大小: 5.5GB | 需要内存: 7GB | GPU 速度: 25-35 tok/s
THUDM 的 GLM-4 在多语言任务上表现出色。如果你的智能体需要在英文之外处理中文、日文、韩文或其他 CJK 语言,GLM-4 在 8-9B 参数规模提供最好的多语言质量。
适合: 多语言智能体、翻译任务、服务多语言用户的智能体。ZeroClaw 的多频道配置经常服务不同语言的用户——GLM-4 自然地处理语言切换。
评价: 多语言部署的默认选择。英文表现扎实,CJK 支持真正好用。
7. DeepSeek V3.2 32B——质量飞跃
大小: 18GB(Q4)| 需要内存: 20GB | GPU 速度: 15-25 tok/s
从这里开始模型质量有了明显的跳升。32B 的 DeepSeek V3.2 产出的东西跟 8B 模型在质感上不同——更长的上下文感知、更少的幻觉、更好的推理链、更细腻的写作。
适合: 有 24GB+ 显存(RTX 3090、RTX 4090)且想要最好本地质量的用户。进阶用户、专业工作流、团队共享推理服务器。
评价: 对能跑它的硬件来说最好的模型。如果你有显存,这就是让你不再想念云端 API 的本地模型。
8. Qwen2.5-Coder 32B——代码大杀器
大小: 18GB(Q4)| 需要内存: 20GB | GPU 速度: 15-25 tok/s
Qwen Coder 的 32B 版本。这个尺寸的代码生成质量接近前沿云端模型。能处理复杂代码库、多文件变更和小模型搞不定的架构级推理。
适合: 专业软件开发。使用 AI 辅助编程的团队,输出质量直接影响生产力的场景。
评价: 如果编程是主要场景且硬件够用,跑这个。
9. Llama 3.1 70B——云端杀手
大小: 40GB(Q4)| 需要内存: 44GB | RTX 4090 速度: 12-18 tok/s
让人退订 ChatGPT 的模型。70B 参数即使量化到 Q4,在大多数任务上的输出都能跟云端 API 掰手腕。推理、写作、代码、分析——每个方向都达到了专业水准。
适合: 有高端硬件(RTX 4090 24GB、双显卡、或 64GB+ 统一内存的 Apple Silicon)且想完全摆脱云端 AI 依赖的用户。
评价: 如果你的硬件跑得动,除了 AI 推理的绝对前沿之外,你可能什么都不需要云端 API 了。
10. Mistral Large 123B——本地前沿
大小: 70GB(Q4)| 需要内存: 75GB | 速度: 高端配置上 5-10 tok/s
最大的还能在本地实际跑起来的模型,需要双 RTX 4090 或 192GB 统一内存的 Apple M3/M4 Ultra。123B 参数匹配甚至超过很多云端 API 模型。
适合: 研究实验室、AI 公司、有专用推理硬件的组织。个人使用不太实际。
评价: 证明了"本地"和"前沿"不再互斥——如果你愿意在硬件上投入的话。
实用搭配
大多数用户的最优 Ollama 配置是两个模型:
- 1.**快速模型** 处理简单查询:gemma3:4b 或 llama3.1:8b
- 2.**质量模型** 处理复杂任务:deepseek-v3.2:32b 或 llama3.1:70b(硬件允许的话)
ZeroClaw 可以根据查询复杂度自动在它们之间路由。简单问题走快速模型(即时响应)。复杂推理走质量模型(更好的输出)。不重要的时候要速度,重要的时候要质量。
两个都下载。配置路由阈值。让智能体自己决定。这就是 2026 年本地 AI 的最佳体验。