지난 18개월 동안 무언가가 바뀌었다. 엣지 AI가 마케팅 용어에서 엔지니어링 현실이 되었다.
세 가지 수렴
양자화가 성숙했다. 3~4비트 GPTQ, AWQ, GGUF 양자화가 "눈에 띄는 품질 저하"에서 "벤치마크 돌려야 차이를 알 수 있는" 수준이 되었다.
소형 모델이 극적으로 좋아졌다. Llama 3.1 8B, Gemma 3 4B, Qwen3-8B, GLM-4-9B가 몇 달 사이에 연달아 출시. 2026년 8B 모델이 2024년 70B 모델을 대부분의 실용 벤치마크에서 앞선다.
하드웨어가 따라잡았다. Pi AI HAT+ 2가 40TOPS/8GB를 $130에 출하. Qualcomm Snapdragon 8 Gen 4 AI Engine이 스마트폰 칩에서 75TOPS.
결과: $10 Raspberry Pi 4에서 ZeroClaw를 돌려 진짜 쓸모있는 AI 에이전트를 호스팅할 수 있게 되었다.
중요한 숫자
- •토큰/초: 대화용 임계값은 약 10 tok/s. Pi 5 + HAT+ 2는 8B 모델로 12~15, 4B로 22~28 달성.
- •첫 토큰 지연: 클라우드 API 200~400ms. Pi 5 + HAT+ 2는 800ms~1.2초.
- •전력 소비: Pi 5 + HAT+ 2 풀 로드 18~22W. 데스크톱 GPU 300W+와 비교하면 미미.
런타임이 생각보다 중요하다
OpenClaw는 모델 로딩 전 200~400MB RAM 필요. 4GB Pi에서 프레임워크만으로 메모리의 5~10%. Node.js GC 일시정지로 50~100ms 응답 멈춤.
ZeroClaw: 바이너리 3.4MB, 유휴 RAM 5MB 미만, 콜드 스타트 10ms 이하. GC 일시정지 없음——Rust가 컴파일 타임에 메모리 관리. 엣지 하드웨어에서 이건 최적화가 아니라 반응성 있는 에이전트와 느린 에이전트의 차이다.
음성 파이프라인: 엣지 AI의 킬러앱
마이크 → Whisper (로컬) → 언어 모델 → Piper TTS → 스피커. 전체 파이프라인이 로컬에서 2초 이하 지연으로 동작. 클라우드 API 없음, 인터넷 의존 없음, 음성이 누구의 서버에도 전송되지 않음.
2026년 엣지 AI는 타협이 아니다. 배포 타깃이다.