Ollamaのモデルライブラリは数百モデルに膨張した。選択のパラドクスは現実で、各サイズカテゴリに数十モデルが並び、それぞれ何かで最強と主張する。
ベンチマークリーダーボードではなく実世界の実用性でテストした。質問に役立つ回答ができるか?動くコードが書けるか?指示に確実に従うか?ハルシネーションは多いか?
パラメータ数順でトップ10。
1. Qwen2.5:1.5b——サバイバルモデル
サイズ: 1.1GB | 必要RAM: 2GB | CPU速度: 15〜25 tok/s
リソースがほぼない環境——Pi Zero、古いノートPC、2GB RAMコンテナ——でも動くモデル。賢くはないが簡単な指示に従い、基本的な事実質問に答え、初歩的なテキスト処理ができる。
評価: このサイズにしては驚くほど機能的。「このテキストをJSONに変換」「この段落を要約」は確実にこなす。
2. Gemma 3 4B——スピードの王者
サイズ: 2.8GB | 必要RAM: 4GB | GPU速度: 40〜60 tok/s
4GB以下で速度重視デプロイの最良モデル。デュアルモデルZeroClawセットアップの「高速モデル」に最適。
3. Llama 3.1 8B Instruct——オールラウンダー
サイズ: 4.7GB | 必要RAM: 6GB | GPU速度: 30〜45 tok/s
推奨される理由がある。品質とサイズのバランスが超えにくい。1つだけダウンロードするならこれ。
4. Qwen3-8B——推論アップグレード
サイズ: 4.9GB | 必要RAM: 6GB | GPU速度: 28〜40 tok/s
Llama 3.1 8Bとの正面対決で、数学・論理推論・構造化分析でより良い出力。正確さが自然さより重要なときに選択。
5. Qwen2.5-Coder 7B——コード専門家
サイズ: 4.4GB | 必要RAM: 6GB | GPU速度: 30〜45 tok/s
コード生成特化。同重量級のどの汎用モデルよりPython、JavaScript、Rust、Go、SQLの生成が確実。開発者必携。
6. GLM-4-9B-0414——多言語チャンピオン
サイズ: 5.5GB | 必要RAM: 7GB | GPU速度: 25〜35 tok/s
CJK言語を英語と並行処理するなら、8〜9Bスケールで最良の多言語品質。多言語デプロイのデフォルト選択。
7. DeepSeek V3.2 32B——品質の飛躍
サイズ: 18GB(Q4)| 必要RAM: 20GB | GPU速度: 15〜25 tok/s
ここからモデル品質が顕著に跳躍する。8Bモデルとは質的に異なる出力。24GB以上VRAMがあるならこれが最良。クラウドAPIが恋しくなくなるローカルモデル。
8. Qwen2.5-Coder 32B——コードの大砲
サイズ: 18GB(Q4)| 必要RAM: 20GB | GPU速度: 15〜25 tok/s
32Bサイズのコード生成品質はフロンティアクラウドモデルに接近。コーディングが主用途でハードウェアがあるならこれ。
9. Llama 3.1 70B——クラウドキラー
サイズ: 40GB(Q4)| 必要RAM: 44GB | RTX 4090速度: 12〜18 tok/s
ChatGPTの解約を促すモデル。70Bパラメータは量子化Q4でもほとんどのタスクでクラウドAPIと競える。ハードウェアが動かせるなら、最先端以外はクラウドAPIが不要になるかもしれない。
10. Mistral Large 123B——ローカルのフロンティア
サイズ: 70GB(Q4)| 必要RAM: 75GB | 速度: ハイエンドで5〜10 tok/s
ローカルで実用的に動かせる最大モデル。デュアルRTX 4090または192GB統一メモリのApple M3/M4 Ultraが必要。「ローカル」と「フロンティア」が排他でないことの証明。
実用的なスタック
ほとんどのユーザーの最適Ollamaセットアップは2モデル:
- 1.**高速モデル** :gemma3:4bまたはllama3.1:8b
- 2.**品質モデル** :deepseek-v3.2:32bまたはllama3.1:70b
ZeroClawがクエリ複雑度に基づいて自動ルーティング。重要でないときは速度、重要なときは品質。これが2026年ローカルAIのベスト体験だ。