この18ヶ月で何かが変わった。エッジAIがマーケティング用語から工学的現実になった。
2024年を通じて、Raspberry Piで言語モデルを動かすというのは、1Bパラメータモデルが3トークン/秒で苦しむのを眺めることだった。技術的にはテキストだが、技術的に役に立つとは言えない出力。「エッジハードウェアで動く」と「実際に役に立つ」の間のギャップは広く、ほとんどの開発者はエッジAIをおもちゃとして扱っていた——デモには面白いが、実用には非現実的。
そのギャップは、大方の予想より速く埋まった。
何が変わったか:三つの収束
三つの独立したトレンドが2025年後半から2026年前半にかけて収束し、その複合効果は加算的ではなく乗算的だった。
量子化が成熟した。 研究グレードから本番グレードへの量子化の跳躍はほぼ一夜にして起きた。GPTQ、AWQ、GGUFの3〜4ビット量子化が「目に見える品質低下」から「ベンチマークを走らせないと違いが分からない」レベルになった。2026年初頭の4ビット量子化8Bモデルは、ほとんどの実用タスクでフルプレシジョン版と同等のパフォーマンスを出す。理論的知識は以前からあった;変わったのはツーリングだ。Ollama、llama.cpp、ExLlamaV2が量子化モデルのデプロイをワンコマンド操作にした。
小型モデルが劇的に良くなった。 小型モデルの品質曲線が変曲点を迎えた。MetaのLlama 3.1 8B、GoogleのGemma 3 4B、AlibabaのQwen3-8B、THUDMのGLM-4-9Bが数ヶ月の間に次々とリリースされ、4〜8GBのRAMに収まるモデルの品質フロンティアをそれぞれ押し上げた。2026年の8Bモデルは2024年の70Bモデルをほとんどの実用ベンチマークで上回る。効率の改善は線形ではなかった——ステップ関数だった。
ハードウェアが追いついた。 Raspberry Pi AI HAT+ 2がINT4推論40TOPSと8GBの専用メモリを130ドルで出荷された。NVIDIAのJetson Orin Nanoが値下げされた。QualcommのSnapdragon 8 Gen 4のAI Engineがスマホチップで75TOPSに達した。共通点:量子化推論用に設計された専用NPUシリコンで、CUDAを走らせる汎用GPUコアの流用ではない。
結果として、ZeroClawを走らせる10ドルのRaspberry Pi 4が、本当に役に立つAIエージェントをホストできるようになった。おもちゃではない。ツールだ。
重要な数字
ベンチマークは恣意的に選びやすい。エッジAIが実用的かどうかを決める数字はこれだ:
トークン/秒。 会話的に使えるしきい値——人間が待っている感覚がないレベル——は大体10トークン/秒。Pi 5 + AI HAT+ 2は量子化8Bモデルで12〜15 tok/s、4Bモデルで22〜28 tok/sに達する。どちらも使用可能ラインを超えている。アクセラレータなしのPi 4は4Bモデルで2〜4 tok/s——バッチ処理には使えるが会話には無理。
最初のトークンまでの遅延。 Enterを押してから最初の文字が出るまでの時間。クラウドAPIは通常200〜400ms。Pi 5 + HAT+ 2は8Bモデルで800ms〜1.2秒。気づくが問題にはならない。CPU推論のPi 4:3〜5秒。ここから体験が劣化する。
メモリ上限。 ハードな制約。Pi 5はシステムRAM 8GB。AI HAT+ 2がモデル専用メモリ8GBを追加。4GBのPi 4は量子化4Bモデルなら動くが、同時に他のものを動かす余裕はほぼない。目安:モデルの量子化サイズがOS+エージェントランタイム用に少なくとも1〜2GB空ける必要がある。
消費電力。 Pi 5 + HAT+ 2はフル推論負荷で18〜22W。CPU推論のPi 4は6〜8W。デスクトップGPUリグの300W以上と比べるとどちらも微々たるもの。ソーラー電源、バッテリーバックアップ、常時稼働のデプロイでは、速度以上にこれが重要になる。
エッジで実際にうまく動くもの
すべてがエッジハードウェアに適しているわけではない。2026年の実用的なセグメンテーション:
よく動く: 質問応答、要約、テキスト分類、主要言語ペア間の翻訳、コードの説明、簡単なコード生成、限定ドメインの会話アシスタント、テキストからの構造化データ抽出、感情分析。
注意付きで動く: 複雑な多段推論(遅く、クラウドモデルより品質が落ちることがある)、創作文(まずまずだが輝いてはいない)、複雑なアーキテクチャのコード生成(構造は正しいが、エッジケースを見逃すことがある)。
まだクラウドが必要: フロンティアレベルの推論タスク、高解像度画像のマルチモーダル推論、長時間オーディオのリアルタイム文字起こし、トレーニングやファインチューニング、70B以上のパラメータモデルがフル品質で必要な場合。
ほとんどのデプロイのパターンはハイブリッドだ:一般的なケースはローカルで処理し、難しいケースはクラウドに回す。ZeroClawは複雑度ベースのルーティングでこれをネイティブサポートしている——しきい値を設定すると、それ以下のクエリはローカルモデルへ、それ以上は設定したクラウドプロバイダーへ送られる。
ランタイムは思っている以上に重要
エッジAIデプロイでよくある間違いは、ランタイムを後回しにすること。モデルを選び、動かし方を考え、流行りのエージェントフレームワークをくっつける。
リソースが限られたハードウェアでは、ランタイムがボトルネックだ。
例えばOpenClawは、モデルをロードする前に起動だけで200〜400MBのRAMが必要。4GBのPiでは、フレームワークだけでメモリ全体の5〜10%が消費される。Node.jsランタイムはガベージコレクションの一時停止を持ち込む——JavaScriptがメモリを整理する間に50〜100msの応答凍結スパイクが起きる。64GBのサーバーでは見えない。Piでは応答生成中の目に見えるカクつきになる。
ZeroClawの設計思想は異なる。バイナリは3.4MB。アイドルRAM使用量は5MB以下。コールドスタートは10ミリ秒以下。ガベージコレクションの一時停止がないのは、ガベージコレクタがないから——Rustがコンパイル時にメモリを管理する。エッジハードウェアでは、これは最適化ではない。レスポンシブに感じるエージェントとモッサリ感じるエージェントの違いだ。
音声パイプライン:エッジAIのキラーアプリ
最も魅力的なエッジAIアプリケーションはテキストチャットではない——音声→アクションパイプラインだ。
アーキテクチャはシンプル:マイクがオーディオをローカルのWhisperモデルに送り(whisper.cppはARMで効率的に動く)、音声をテキストに変換する。テキストが小型言語モデルに送られ、意図理解と応答生成を行う。応答がテキスト読み上げにルーティングされ(Piper TTSはPi 5でリアルタイム速度で動く)、スピーカーから再生される。
パイプライン全体がローカルで2秒以下の遅延で動く。クラウドAPIなし。インターネット依存なし。サブスクリプションコストなし。音声の録音が誰かのサーバーに送られることもない。
ホームオートメーション向け——「寝室のライトを消して」「20分のタイマーをセットして」「天気予報を教えて」——これは商用音声アシスタントより一つ重要な点で優れている:処理が自分のハードウェアで行われる。主要な商用音声アシスタントはすべて、音声をクラウドに送って処理する。ローカルパイプラインはそれをしない。
ZeroClawのツールシステムがこれを実用的にする:スマートホームAPI、カレンダー、ToDoリスト用のツールを定義する。言語モデルが発話の意図に基づいて適切なツールを呼び出す。ツールはローカルで実行される。結果が音声で返ってくる。
今後12ヶ月の見通し
方向性は明確だ。モデルは小さくなりながら同時に良くなっている。ハードウェアアクセラレータは安くなっている。ランタイムはスリムになっている。
2027年初頭までに、量子化8Bモデルが今日の量子化30Bモデルの性能に匹敵するようになるだろう。Raspberry Pi 6が統合NPUを搭載するだろう。「ローカルで動かすかクラウドで動かすか」の判断が、ほとんどの一般的タスクでさらにローカル寄りにシフトするだろう。
クラウドは消えない——フロンティアモデルは常にPiに収まるものより大きく優れている。しかし「十分に良い」の定義は急速に動いており、ユースケースのリストが増える中で、十分に良いものはクラウドAPI費用1ヶ月分以下のハードウェアで動く。
2026年のエッジAIは妥協ではない。デプロイターゲットだ。ハードウェアは揃い、モデルは揃い、ランタイムも揃った。あとは何を作るかだけだ。