🧊

さとまたちゃんのLLM専用基盤開発

「4GBで500B」を個人の手で実現する。Ryzen 9 7900X3D + RTX 4070 Super の実機で今日から検証開始

LLM基盤 MoE特化個人量産 4GB×500B オープンハードウェア

プロジェクトの目的
LLMの現在の5つの課題
MoEがなぜ解になるのか
手持ちハードウェアで何ができるか
マシンスペック詳細
このPCで動くモデル予想
3段階ロードマップ
Phase 1：手持ちPCで実証
Phase 2：SBCプロトタイプ
Phase 3：量産とオープン化
専用ハードウェア設計
具体的アクションプラン
まとめ

🎯 プロジェクトの目的

LLMが当たり前のインフラになった一方で、使える人と使えない人の格差が広がっている。月数万円のクラウドAPI課金、数十万円のGPU投資、プライバシー不安——これらを解く個人所有のLLM専用機を作る。目標は「1万円台の箱を1回買えば、生涯ローカルで大規模LLMが動く世界」。

🎯 現状把握

LLM運用の構造的課題を分解

🔀 技術選択

MoEとSSDストリーミングで解く

🏭 実装

UIAPduino方式の個人量産で箱にする

📉 LLMの現在の5つの課題

課題	現状	本プロジェクトの解
メモリの壁	70B級で140GB+のVRAM必要。家庭用GPUでは不可能	MoE + Q2量子化 + SSDストリーミングで4GBに圧縮
クラウド依存コスト	GPT-4 APIで月1〜10万円、個人利用でも重い	ローカル推論で完全定額化（電気代のみ）
プライバシー	機密データをOpenAI/Anthropicに送る不安	完全ローカル実行で外部送信ゼロ
専用機の空白	Mac mini / 一般PC流用しかない。「LLM専用」の箱が存在しない	LLM特化設計の専用ハード（Raspberry Piポジション）
モデル更新のコスト	新モデルが出るたびハード買い替えが示唆される	SSD差し替えだけでモデル交換可能な設計

これらは互いに絡み合っている。メモリの壁があるからクラウドに行き、クラウドに行くから月額課金が発生し、そこにデータを送るからプライバシー問題が起きる。根っこはメモリの壁だ。ここを崩せば、残り4つは連鎖的に解ける。

🔀 MoEがなぜ解になるのか

詳細は MoEアーキテクチャ大解剖に譲るが、要点だけ再掲する。MoEは「計算量を減らす技術」ではなく「メモリに常駐させる量を選べる技術」だ。

① 全Expertの重みをSSDに置く

500Bモデル全体を1TB NVMeに格納（Q2量子化で約100GB）

② Top-K個だけをメモリに呼び出す

DeepSeek V3 方式なら256個中8個のみアクティブ。物理メモリ2〜4GBで収まる

③ ホットExpertをLRUキャッシュ

頻出Expertは残し、稀にしか使わないExpertはSSDに戻す

この3点を支えるには、「PCIe 5.0 NVMe（14GB/s）」「X3Dキャッシュの大きなCPU」「MoEに特化した推論エンジン」の3点セットが必要。ちょうど手元のPCに前2つが揃っている。今すぐ実証開始できる状態だ。

💻 手持ちハードウェアで何ができるか

幸いなことに、手持ちのPCはこのプロジェクトのPhase 1実証に理想的な構成だ。大規模モデルの動作検証からエキスパートキャッシュの実装まで、新規投資ゼロで進められる。

🔧 マシンスペック詳細

部位	スペック	本プロジェクトでの意味
CPU	AMD Ryzen 9 7900X3D（12コア24スレッド、3D V-Cache 128MB L3）	X3Dの巨大L3キャッシュがLLM推論に強く効く。CPUオフロード時に特に有利
GPU	NVIDIA RTX 4070 Super（12GB GDDR6X、7168 CUDA core）	CUDA環境で llama.cpp / vLLM / Ollama が即動く。Mixtral 8x7B Q4級まで単体で推論可能
RAM	DDR5 32GB	GPUに乗らない重みをここに逃がせる。Mixtral 8x22B Q4（約80GB）は無理だが、大半のモデルはカバー
Storage	NVMe SSD（想定）	SSDストリーミング推論の実証に必須。PCIe 4.0 以上なら帯域7GB/s確保

結論：このPCは「4GBで500B」の実証実験マシンとして完全に通用する。

物理メモリを意図的に4GB相当に制限して動かすテストが、今日から可能。

📊 このPCで動くモデル予想

モデル	総パラ	メモリ要求	このPCでの動作	予想速度
Llama 3 8B Q4	8B	5GB	GPU完全収容、即動作	60〜80 tok/s
Llama 3 70B Q4	70B	40GB	GPU 12GB + CPU 28GB offload	3〜5 tok/s
Mixtral 8x7B Q4	47B	24GB	GPU 12GB + CPU 12GB offload	10〜15 tok/s
Mixtral 8x7B Q2	47B	14GB	GPU完全収容寸前、CPU少し併用	25〜35 tok/s
DeepSeek R1 Distill Qwen 32B Q4	32B	20GB	GPU 12GB + CPU 8GB offload	8〜12 tok/s
Qwen1.5 MoE 14B Q4	14B	8GB	GPU完全収容	50〜70 tok/s
DeepSeek V3 671B Q2	671B	200GB	SSDストリーミング実装で初めて可能	目標 1〜3 tok/s

最後のDeepSeek V3行が、このプロジェクトの勝負所。通常の llama.cpp では 200GB のメモリ（またはVRAM）が必要でこのPCでは動かない。自作するExpertキャッシュ付き推論エンジンが動けば、手持ちPCで671Bを動かせる。これが実現すれば、4GBハードへの移植は単に縮小するだけの作業になる。

🗺️ 3段階ロードマップ

UIAPduinoの「1,980円で1年間市場テスト→290円に改定」と同じ思想で、段階を踏む。ソフトウェアで勝ち筋を確認してから、ハードを起こす。

🔵 Phase 1：手持ちPCで実証（0〜6ヶ月）

・新規投資ゼロ。今のPCだけで進む
・llama.cpp のフォーク、Expert キャッシュ実装
・Mixtral 8x7B → DeepSeek V3 の順にメモリ制限下で動作確認
・物理メモリを sysctl / WSL2 で4GB制限し、SSDオフロードが機能するか測定
・ブログ・GitHub で進捗公開

🟣 Phase 2：SBCプロトタイプ（6〜12ヶ月）

・Rockchip RK3588 or SG2380評価ボード購入（5,000〜15,000円）
・Phase 1で作った推論エンジンを aarch64 / RISC-V にクロスビルド
・実機でのトークン/秒を測定、PCとの差分を埋める
・放熱・電源設計のプロトタイプ（3Dプリント筐体）
・5〜10台製造、協力者に配布してデバッグ

🟢 Phase 3：量産とオープン化（12〜24ヶ月）

・基板のガーバー・BOM・筐体STL・ファームを全てGitHub公開
・製造工程の動画化（埋田氏方式）
・JLCPCB に 100〜500台ロット発注、自宅で全数検査・梱包・クリックポスト出荷
・目標小売価格 12,000円（SSD別売）
・先行100台は早期支援者向け

🏗️ 専用ハードウェア設計

部位	選定案	理由
SoC	Rockchip RK3588 / Bouffalolab BL808 / SG2380	NPU 6TOPS級、PCIe 3.0以上、単価5,000円以下
メモリ	LPDDR5 4GB（あえて抑える）	「制約こそブランド」。16GB載せたら普通のSBCになる
ストレージ	NVMe M.2 2280 スロット（ユーザー装着）	SSD差し替えでモデル交換可能。1TB推奨・別売
アクセラレータ	SoC内蔵NPU優先、オプションでHailo-8	外付けGPUは電源・熱・価格で却下
I/O	USB-C PD / Ethernet / HDMI	ヘッドレス運用前提
筐体	アルミ削り出し（量産時）、3Dプリント（プロト）	放熱にNVMe冷却を兼ねる
目標BOM	本体12,000円 / SSD別	ラズパイ5+Hailo相当の価格帯

SoC選定はPhase 1〜2の推論速度次第。RK3588は入手容易で実績豊富だが、SG2380（RISC-V）が実用化すれば「UIAPduinoの思想を純粋に継承」できる選択肢になる。

📋 具体的アクションプラン

🚀 今週の実行タスク（新規投資ゼロ）

llama.cpp を手元PCでビルド、CUDA有効化を確認
Mixtral 8x7B Q4_K_M を Hugging Face からダウンロード（26GB、NVMe必須）
llama-cli で推論を走らせ、VRAM使用量・トークン/秒をCSV記録（ベースライン）
同じモデルをQ2_Kに差し替えて再計測、精度劣化もベンチマーク
DeepSeek V3 論文 + BitNet b1.58 論文を1枚A4にまとめる
GitHub に新規リポジトリ作成（仮称 satomata-llm-edge）、READMEに「Ryzen 9 7900X3D + RTX 4070 Super で500Bを動かす」と宣言

1ヶ月目

llama.cpp 内部構造の読解（特に ggml-cuda.cu の offload 機構、mmap 処理）。Expert ルーティングのログ出力を追加し、Mixtralの実際のExpert選択パターンを観測。

2〜3ヶ月目

llama.cpp フォークにExpertキャッシュ（LRU方式、C++）を実装。4GBメモリ制限下（cgroupsで擬似環境）でMixtralが動くことを確認。初ベンチマーク公開。

4〜6ヶ月目

DeepSeek V3 の256エキスパートアーキテクチャに対応拡張。OLMoE 7B-1B でも検証し、Expert粒度とキャッシュヒット率の関係を数値化。llama.cpp 本体にPR提出。

7〜12ヶ月目

SBC実機（RK3588等）に移植。クロスコンパイル環境整備。プロトタイプ基板の設計開始、KiCadで発注準備。

🎯 まとめ

LLMの課題の根本はメモリの壁で、MoE + SSDストリーミングがその解。そして手持ちのRyzen 9 7900X3D + RTX 4070 Superが、この解を実証する実験機として完璧に揃っている。新規投資ゼロで今日から始められる。UIAPduinoの埋田氏が「既存技術の組み合わせで290円を実現」したように、このプロジェクトも「既存技術（llama.cpp、MoE、NVMe mmap）の組み合わせ」で成立する。あとは、やるだけだ。

「500Bのモデルを、4GBのメモリを積んだ1万円台の箱で動かす。埋田氏の290円マイコンボードが100均の棚に並ぶ未来と、この箱が家電量販店の棚に並ぶ未来は、同じ思想の延長線上にある。」

📚 関連ページ:

・UIAPduino — 290円マイコンボードの個人量産

・MoEアーキテクチャ大解剖