AIエージェントハードウェアガイド：10ドルのRaspberry Piから800ドルのGPUワークステーションまで

初めてローカルAIエージェントをセットアップする人が最も多く聞く質問は、ソフトウェアについてではない。ハードウェアについてだ。「何を買えばいい？」正直な答え：何をしたいかによる。

10ドルのRaspberry Piで小さいモデルとZeroClawを動かせる。800ドルのワークステーションなら700億パラメータのモデルを会話速度で動かせる。この二つの極端の間に実用的なスイートスポットが多数あるのに、ネットの推奨は最安か最高のどちらかに偏り、中間が見過ごされている。

ティアごとに見ていこう。

ティア1：50ドル以下——最小構成のエージェント

ハードウェア： Raspberry Pi 4（4GB）またはPi Zero 2 W

得られるもの： ZeroClawは快適に動く——3.4MBバイナリ、5MB未満のRAM、一瞬で起動。しかしCPUのみのPiでモデル推論は遅い。量子化1.5Bモデル（Qwen2.5:1.5bなど）で2〜4トークン/秒。4Bモデルは1 tok/s未満で実用的でない。

向いている用途： ZeroClawを軽量エージェントランタイムとして動かし、推論はクラウドAPI（OpenAI、Anthropicなど）に任せる。PiがエージェントロジックとチャネルとメモリIを処理、クラウドが推論を処理。個人利用ならAPI費用は月5〜15ドル程度。

モデル推奨： このティアではローカルでモデルを動かさない。クラウドプロバイダを使い、Piを常時稼働のエージェントランタイムとして扱う。

実費： Pi 4 4GB（35ドル）+ ケース（5ドル）+ 電源（8ドル）+ SDカード（8ドル）= 約56ドル + 月々のAPI費用。

ティア2：150〜250ドル——エッジAIのスイートスポット

ハードウェア： Raspberry Pi 5（8GB）+ AI HAT+ 2

得られるもの： 40TOPSの専用AI推論。量子化8Bモデルが12〜15トークン/秒——会話に十分な速度。4Bモデルは22〜28 tok/s。HAT+ 2の8GB専用LPDDR4XメモリのおかげでモデルがOSとRAMを取り合わない。

向いている用途： 完全オフラインの常時稼働AIアシスタント。クラウド依存なし、API費用なし、データがネットワーク外に出ない。ホームオートメーション、家族用アシスタント、プライバシー重視のセットアップに最適。

•汎用：llama3.1:8b（Q4_K_M量子化）
•高速レスポンス：gemma3:4b
•コーディング支援：qwen2.5-coder:7b

実費： Pi 5 8GB（80ドル）+ AI HAT+ 2（130ドル）+ ケース + 電源 + ストレージ = 約230ドル。ランニングコストゼロ。

ティア3：300〜500ドル——中古GPUの世界

ハードウェア： 任意のデスクトップまたはミニPC + 中古NVIDIA RTX 3090

得られるもの： 24GBのVRAMでまったく異なるモデル層にアクセスできる。量子化30Bモデルが20+ tok/s、量子化70Bモデルが8〜12 tok/s。8Bから30B以上への品質ジャンプは実質的——より長いコンテキスト理解、より良い推論、より少ない幻覚。

RTX 3090は2026年の中古市場で最もコスパの高いAIカードだ。元値1,500ドルが中古250〜350ドル。同価格帯で24GB VRAMに匹敵するものはない。

向いている用途： フロンティアに近いモデル品質をクラウド費用なしで求めるパワーユーザー。コーディング用AIアシスタントを使う開発者。ローカル推論サーバーを共有する小チーム。

•汎用：deepseek-v3.2:32b（Q4_K_M）
•コーディング：qwen2.5-coder:32b
•最高品質：llama3.1:70b（Q3_K_M——24GBに収まる、遅いが印象的）

実費： 中古デスクトップ（100〜150ドル）+ 中古RTX 3090（300ドル）= 約400〜450ドル。負荷時消費電力約300W。

ティア4：500〜800ドル——現行世代のスイートスポット

ハードウェア： デスクトップまたはミニPC + NVIDIA RTX 4070 Ti Super（16GB VRAM）またはRTX 4080 Super（16GB）

得られるもの： 最新アーキテクチャでTOPSあたりの推論速度は3090より速く、電力効率が良く、ハードウェア加速量子化をサポート。16GBのVRAMで30Bモデルが快適に動く。32B Q4モデルの推論速度：25〜35 tok/s。

3090とのトレードオフ：VRAM少ない（16GB vs 24GB）が、トークンあたりの推論が速く、消費電力低く、ドライバサポートが新しい。

向いている用途： 日常使いのAIワークステーション。複数モデルの同時運用（簡単なクエリに小モデル、複雑なタスクに大モデル）。AIペアプログラミングによるソフトウェア開発。

•汎用：deepseek-v3.2:32b（Q4_K_M）——16GBカードの現在の品質王者
•コーディング：qwen2.5-coder:32b（Q4_K_M）
•高速：llama3.1:8b で簡単なクエリ（これらのカードで80+ tok/s）

実費： RTX 4070 Ti Super（新品500〜550ドル）を既存デスクトップに、または約800ドルでフルビルド。

ティア5：800ドル以上——ローカル性能の天井

ハードウェア： デュアルGPU構成、RTX 4090（24GB）、またはRTX 5090（32GB）

得られるもの： RTX 4090の24GBで量子化70Bモデルが15〜20 tok/s——クラウドAPIのレスポンスタイムに匹敵。RTX 5090の32GBでより高い量子化精度による品質向上。デュアル3090（テンソルパラレリズムで合計48GB）でフル精度30Bモデルまたは高度量子化100B以上モデルが動く。

向いている用途： 研究、クラウド依存が許されないビジネスクリティカルなAIワークロード、5〜10人のチームが推論インフラを共有。

•RTX 4090：llama3.1:70b（Q4_K_M）フルスピード
•デュアル3090：llama3.1:70b（Q5_K_M）より高品質
•RTX 5090：収まる最大モデルで最高量子化精度

判断フレームワーク

買いすぎない。適切なティアは三つの質問で決まる：

•いいえ → ティア1（50ドルのPi + クラウドAPI）が最もコスパが良い
•はい → 品質要件に応じてティア2以上

•基本的な支援（Q&A、簡単なタスク）→ 4B〜8Bモデル、ティア2
•全般的に良い品質 → 30Bモデル、ティア3〜4
•フロンティアレベルの推論 → 70B以上モデル、ティア5

•自分だけ → ティア2〜3
•小チーム（2〜5人）→ ティア4
•より大きなチームまたは本番 → ティア5

ZeroClawファクター

全ティアに共通するのは：ZeroClawのオーバーヘッドは無視できるレベルだということ。3.4MBバイナリ、5MB未満のRAM。どのティアでもリソース消費は丸め誤差程度。ハードウェア予算はすべてモデル推論に使われ、フレームワークのオーバーヘッドに浪費されない。

ティア1のハードウェアではメガバイト単位で貴重だから、この差が役に立つエージェントを動かせるかメモリ不足になるかの分かれ目になる。ティア5のハードウェアでは、800ドルの投資がほぼ完全にAI性能に充てられ、ランタイムの肥大化に浪費されないことを意味する。

ユースケースに合うハードウェアを買おう。ランタイムは存在感を消してくれる。