guide hardware

AIエージェントハードウェアガイド:10ドルのRaspberry Piから800ドルのGPUワークステーションまで

ZeroClaws.io

ZeroClaws.io

@zeroclaws

February 15, 2026

7 分で読める

AIエージェントハードウェアガイド:10ドルのRaspberry Piから800ドルのGPUワークステーションまで

初めてローカルAIエージェントをセットアップする人が最も多く聞く質問は、ソフトウェアについてではない。ハードウェアについてだ。「何を買えばいい?」正直な答え:何をしたいかによる。

10ドルのRaspberry Piで小さいモデルとZeroClawを動かせる。800ドルのワークステーションなら700億パラメータのモデルを会話速度で動かせる。この二つの極端の間に実用的なスイートスポットが多数あるのに、ネットの推奨は最安か最高のどちらかに偏り、中間が見過ごされている。

ティアごとに見ていこう。

ティア1:50ドル以下——最小構成のエージェント

ハードウェア: Raspberry Pi 4(4GB)またはPi Zero 2 W

得られるもの: ZeroClawは快適に動く——3.4MBバイナリ、5MB未満のRAM、一瞬で起動。しかしCPUのみのPiでモデル推論は遅い。量子化1.5Bモデル(Qwen2.5:1.5bなど)で2〜4トークン/秒。4Bモデルは1 tok/s未満で実用的でない。

向いている用途: ZeroClawを軽量エージェントランタイムとして動かし、推論はクラウドAPI(OpenAI、Anthropicなど)に任せる。PiがエージェントロジックとチャネルとメモリIを処理、クラウドが推論を処理。個人利用ならAPI費用は月5〜15ドル程度。

モデル推奨: このティアではローカルでモデルを動かさない。クラウドプロバイダを使い、Piを常時稼働のエージェントランタイムとして扱う。

実費: Pi 4 4GB(35ドル)+ ケース(5ドル)+ 電源(8ドル)+ SDカード(8ドル)= 約56ドル + 月々のAPI費用。

ティア2:150〜250ドル——エッジAIのスイートスポット

ハードウェア: Raspberry Pi 5(8GB)+ AI HAT+ 2

得られるもの: 40TOPSの専用AI推論。量子化8Bモデルが12〜15トークン/秒——会話に十分な速度。4Bモデルは22〜28 tok/s。HAT+ 2の8GB専用LPDDR4XメモリのおかげでモデルがOSとRAMを取り合わない。

向いている用途: 完全オフラインの常時稼働AIアシスタント。クラウド依存なし、API費用なし、データがネットワーク外に出ない。ホームオートメーション、家族用アシスタント、プライバシー重視のセットアップに最適。

  • 汎用:llama3.1:8b(Q4_K_M量子化)
  • 高速レスポンス:gemma3:4b
  • コーディング支援:qwen2.5-coder:7b

実費: Pi 5 8GB(80ドル)+ AI HAT+ 2(130ドル)+ ケース + 電源 + ストレージ = 約230ドル。ランニングコストゼロ。

ティア3:300〜500ドル——中古GPUの世界

ハードウェア: 任意のデスクトップまたはミニPC + 中古NVIDIA RTX 3090

得られるもの: 24GBのVRAMでまったく異なるモデル層にアクセスできる。量子化30Bモデルが20+ tok/s、量子化70Bモデルが8〜12 tok/s。8Bから30B以上への品質ジャンプは実質的——より長いコンテキスト理解、より良い推論、より少ない幻覚。

RTX 3090は2026年の中古市場で最もコスパの高いAIカードだ。元値1,500ドルが中古250〜350ドル。同価格帯で24GB VRAMに匹敵するものはない。

向いている用途: フロンティアに近いモデル品質をクラウド費用なしで求めるパワーユーザー。コーディング用AIアシスタントを使う開発者。ローカル推論サーバーを共有する小チーム。

  • 汎用:deepseek-v3.2:32b(Q4_K_M)
  • コーディング:qwen2.5-coder:32b
  • 最高品質:llama3.1:70b(Q3_K_M——24GBに収まる、遅いが印象的)

実費: 中古デスクトップ(100〜150ドル)+ 中古RTX 3090(300ドル)= 約400〜450ドル。負荷時消費電力約300W。

ティア4:500〜800ドル——現行世代のスイートスポット

ハードウェア: デスクトップまたはミニPC + NVIDIA RTX 4070 Ti Super(16GB VRAM)またはRTX 4080 Super(16GB)

得られるもの: 最新アーキテクチャでTOPSあたりの推論速度は3090より速く、電力効率が良く、ハードウェア加速量子化をサポート。16GBのVRAMで30Bモデルが快適に動く。32B Q4モデルの推論速度:25〜35 tok/s。

3090とのトレードオフ:VRAM少ない(16GB vs 24GB)が、トークンあたりの推論が速く、消費電力低く、ドライバサポートが新しい。

向いている用途: 日常使いのAIワークステーション。複数モデルの同時運用(簡単なクエリに小モデル、複雑なタスクに大モデル)。AIペアプログラミングによるソフトウェア開発。

  • 汎用:deepseek-v3.2:32b(Q4_K_M)——16GBカードの現在の品質王者
  • コーディング:qwen2.5-coder:32b(Q4_K_M)
  • 高速:llama3.1:8b で簡単なクエリ(これらのカードで80+ tok/s)

実費: RTX 4070 Ti Super(新品500〜550ドル)を既存デスクトップに、または約800ドルでフルビルド。

ティア5:800ドル以上——ローカル性能の天井

ハードウェア: デュアルGPU構成、RTX 4090(24GB)、またはRTX 5090(32GB)

得られるもの: RTX 4090の24GBで量子化70Bモデルが15〜20 tok/s——クラウドAPIのレスポンスタイムに匹敵。RTX 5090の32GBでより高い量子化精度による品質向上。デュアル3090(テンソルパラレリズムで合計48GB)でフル精度30Bモデルまたは高度量子化100B以上モデルが動く。

向いている用途: 研究、クラウド依存が許されないビジネスクリティカルなAIワークロード、5〜10人のチームが推論インフラを共有。

  • RTX 4090:llama3.1:70b(Q4_K_M)フルスピード
  • デュアル3090:llama3.1:70b(Q5_K_M)より高品質
  • RTX 5090:収まる最大モデルで最高量子化精度

判断フレームワーク

買いすぎない。適切なティアは三つの質問で決まる:

  • いいえ → ティア1(50ドルのPi + クラウドAPI)が最もコスパが良い
  • はい → 品質要件に応じてティア2以上
  • 基本的な支援(Q&A、簡単なタスク)→ 4B〜8Bモデル、ティア2
  • 全般的に良い品質 → 30Bモデル、ティア3〜4
  • フロンティアレベルの推論 → 70B以上モデル、ティア5
  • 自分だけ → ティア2〜3
  • 小チーム(2〜5人)→ ティア4
  • より大きなチームまたは本番 → ティア5

ZeroClawファクター

全ティアに共通するのは:ZeroClawのオーバーヘッドは無視できるレベルだということ。3.4MBバイナリ、5MB未満のRAM。どのティアでもリソース消費は丸め誤差程度。ハードウェア予算はすべてモデル推論に使われ、フレームワークのオーバーヘッドに浪費されない。

ティア1のハードウェアではメガバイト単位で貴重だから、この差が役に立つエージェントを動かせるかメモリ不足になるかの分かれ目になる。ティア5のハードウェアでは、800ドルの投資がほぼ完全にAI性能に充てられ、ランタイムの肥大化に浪費されないことを意味する。

ユースケースに合うハードウェアを買おう。ランタイムは存在感を消してくれる。

ZeroClaw で AI Agent の構築を始めよう

新リリース、連携、Rust製エージェントインフラの最新情報をお届け。スパムなし、いつでも解除可能。