さとまたちゃんのLLM専用基盤開発
「4GBで500B」を個人の手で実現する。Ryzen 9 7900X3D + RTX 4070 Super の実機で今日から検証開始
目次
🎯 プロジェクトの目的
LLMが当たり前のインフラになった一方で、使える人と使えない人の格差が広がっている。月数万円のクラウドAPI課金、数十万円のGPU投資、プライバシー不安——これらを解く個人所有のLLM専用機を作る。目標は「1万円台の箱を1回買えば、生涯ローカルで大規模LLMが動く世界」。
🎯 現状把握
LLM運用の構造的課題を分解
🔀 技術選択
MoEとSSDストリーミングで解く
🏭 実装
UIAPduino方式の個人量産で箱にする
📉 LLMの現在の5つの課題
| 課題 | 現状 | 本プロジェクトの解 |
|---|---|---|
| メモリの壁 | 70B級で140GB+のVRAM必要。家庭用GPUでは不可能 | MoE + Q2量子化 + SSDストリーミングで4GBに圧縮 |
| クラウド依存コスト | GPT-4 APIで月1〜10万円、個人利用でも重い | ローカル推論で完全定額化(電気代のみ) |
| プライバシー | 機密データをOpenAI/Anthropicに送る不安 | 完全ローカル実行で外部送信ゼロ |
| 専用機の空白 | Mac mini / 一般PC流用しかない。「LLM専用」の箱が存在しない | LLM特化設計の専用ハード(Raspberry Piポジション) |
| モデル更新のコスト | 新モデルが出るたびハード買い替えが示唆される | SSD差し替えだけでモデル交換可能な設計 |
これらは互いに絡み合っている。メモリの壁があるからクラウドに行き、クラウドに行くから月額課金が発生し、そこにデータを送るからプライバシー問題が起きる。根っこはメモリの壁だ。ここを崩せば、残り4つは連鎖的に解ける。
🔀 MoEがなぜ解になるのか
詳細は MoEアーキテクチャ大解剖 に譲るが、要点だけ再掲する。MoEは「計算量を減らす技術」ではなく「メモリに常駐させる量を選べる技術」だ。
① 全Expertの重みをSSDに置く
500Bモデル全体を1TB NVMeに格納(Q2量子化で約100GB)
② Top-K個だけをメモリに呼び出す
DeepSeek V3 方式なら256個中8個のみアクティブ。物理メモリ2〜4GBで収まる
③ ホットExpertをLRUキャッシュ
頻出Expertは残し、稀にしか使わないExpertはSSDに戻す
この3点を支えるには、「PCIe 5.0 NVMe(14GB/s)」「X3Dキャッシュの大きなCPU」「MoEに特化した推論エンジン」の3点セットが必要。ちょうど手元のPCに前2つが揃っている。今すぐ実証開始できる状態だ。
💻 手持ちハードウェアで何ができるか
幸いなことに、手持ちのPCはこのプロジェクトのPhase 1実証に理想的な構成だ。大規模モデルの動作検証からエキスパートキャッシュの実装まで、新規投資ゼロで進められる。
🔧 マシンスペック詳細
| 部位 | スペック | 本プロジェクトでの意味 |
|---|---|---|
| CPU | AMD Ryzen 9 7900X3D(12コア24スレッド、3D V-Cache 128MB L3) | X3Dの巨大L3キャッシュがLLM推論に強く効く。CPUオフロード時に特に有利 |
| GPU | NVIDIA RTX 4070 Super(12GB GDDR6X、7168 CUDA core) | CUDA環境で llama.cpp / vLLM / Ollama が即動く。Mixtral 8x7B Q4級まで単体で推論可能 |
| RAM | DDR5 32GB | GPUに乗らない重みをここに逃がせる。Mixtral 8x22B Q4(約80GB)は無理だが、大半のモデルはカバー |
| Storage | NVMe SSD(想定) | SSDストリーミング推論の実証に必須。PCIe 4.0 以上なら帯域7GB/s確保 |
結論:このPCは「4GBで500B」の実証実験マシンとして完全に通用する。
物理メモリを意図的に4GB相当に制限して動かすテストが、今日から可能。
📊 このPCで動くモデル予想
| モデル | 総パラ | メモリ要求 | このPCでの動作 | 予想速度 |
|---|---|---|---|---|
| Llama 3 8B Q4 | 8B | 5GB | GPU完全収容、即動作 | 60〜80 tok/s |
| Llama 3 70B Q4 | 70B | 40GB | GPU 12GB + CPU 28GB offload | 3〜5 tok/s |
| Mixtral 8x7B Q4 | 47B | 24GB | GPU 12GB + CPU 12GB offload | 10〜15 tok/s |
| Mixtral 8x7B Q2 | 47B | 14GB | GPU完全収容寸前、CPU少し併用 | 25〜35 tok/s |
| DeepSeek R1 Distill Qwen 32B Q4 | 32B | 20GB | GPU 12GB + CPU 8GB offload | 8〜12 tok/s |
| Qwen1.5 MoE 14B Q4 | 14B | 8GB | GPU完全収容 | 50〜70 tok/s |
| DeepSeek V3 671B Q2 | 671B | 200GB | SSDストリーミング実装で初めて可能 | 目標 1〜3 tok/s |
最後のDeepSeek V3行が、このプロジェクトの勝負所。通常の llama.cpp では 200GB のメモリ(またはVRAM)が必要でこのPCでは動かない。自作するExpertキャッシュ付き推論エンジンが動けば、手持ちPCで671Bを動かせる。これが実現すれば、4GBハードへの移植は単に縮小するだけの作業になる。
🗺️ 3段階ロードマップ
UIAPduinoの「1,980円で1年間市場テスト→290円に改定」と同じ思想で、段階を踏む。ソフトウェアで勝ち筋を確認してから、ハードを起こす。
🔵 Phase 1:手持ちPCで実証(0〜6ヶ月)
- ・新規投資ゼロ。今のPCだけで進む
- ・llama.cpp のフォーク、Expert キャッシュ実装
- ・Mixtral 8x7B → DeepSeek V3 の順にメモリ制限下で動作確認
- ・物理メモリを
sysctl/ WSL2 で4GB制限し、SSDオフロードが機能するか測定 - ・ブログ・GitHub で進捗公開
🟣 Phase 2:SBCプロトタイプ(6〜12ヶ月)
- ・Rockchip RK3588 or SG2380評価ボード購入(5,000〜15,000円)
- ・Phase 1で作った推論エンジンを aarch64 / RISC-V にクロスビルド
- ・実機でのトークン/秒を測定、PCとの差分を埋める
- ・放熱・電源設計のプロトタイプ(3Dプリント筐体)
- ・5〜10台製造、協力者に配布してデバッグ
🟢 Phase 3:量産とオープン化(12〜24ヶ月)
- ・基板のガーバー・BOM・筐体STL・ファームを全てGitHub公開
- ・製造工程の動画化(埋田氏方式)
- ・JLCPCB に 100〜500台ロット発注、自宅で全数検査・梱包・クリックポスト出荷
- ・目標小売価格 12,000円(SSD別売)
- ・先行100台は早期支援者向け
🏗️ 専用ハードウェア設計
| 部位 | 選定案 | 理由 |
|---|---|---|
| SoC | Rockchip RK3588 / Bouffalolab BL808 / SG2380 | NPU 6TOPS級、PCIe 3.0以上、単価5,000円以下 |
| メモリ | LPDDR5 4GB(あえて抑える) | 「制約こそブランド」。16GB載せたら普通のSBCになる |
| ストレージ | NVMe M.2 2280 スロット(ユーザー装着) | SSD差し替えでモデル交換可能。1TB推奨・別売 |
| アクセラレータ | SoC内蔵NPU優先、オプションでHailo-8 | 外付けGPUは電源・熱・価格で却下 |
| I/O | USB-C PD / Ethernet / HDMI | ヘッドレス運用前提 |
| 筐体 | アルミ削り出し(量産時)、3Dプリント(プロト) | 放熱にNVMe冷却を兼ねる |
| 目標BOM | 本体12,000円 / SSD別 | ラズパイ5+Hailo相当の価格帯 |
SoC選定はPhase 1〜2の推論速度次第。RK3588は入手容易で実績豊富だが、SG2380(RISC-V)が実用化すれば「UIAPduinoの思想を純粋に継承」できる選択肢になる。
📋 具体的アクションプラン
🚀 今週の実行タスク(新規投資ゼロ)
- llama.cpp を手元PCでビルド、CUDA有効化を確認
- Mixtral 8x7B Q4_K_M を Hugging Face からダウンロード(26GB、NVMe必須)
llama-cliで推論を走らせ、VRAM使用量・トークン/秒をCSV記録(ベースライン)- 同じモデルをQ2_Kに差し替えて再計測、精度劣化もベンチマーク
- DeepSeek V3 論文 + BitNet b1.58 論文を1枚A4にまとめる
- GitHub に新規リポジトリ作成(仮称
satomata-llm-edge)、READMEに「Ryzen 9 7900X3D + RTX 4070 Super で500Bを動かす」と宣言
1ヶ月目
llama.cpp 内部構造の読解(特に ggml-cuda.cu の offload 機構、mmap 処理)。Expert ルーティングのログ出力を追加し、Mixtralの実際のExpert選択パターンを観測。
2〜3ヶ月目
llama.cpp フォークにExpertキャッシュ(LRU方式、C++)を実装。4GBメモリ制限下(cgroupsで擬似環境)でMixtralが動くことを確認。初ベンチマーク公開。
4〜6ヶ月目
DeepSeek V3 の256エキスパートアーキテクチャに対応拡張。OLMoE 7B-1B でも検証し、Expert粒度とキャッシュヒット率の関係を数値化。llama.cpp 本体にPR提出。
7〜12ヶ月目
SBC実機(RK3588等)に移植。クロスコンパイル環境整備。プロトタイプ基板の設計開始、KiCadで発注準備。
🎯 まとめ
LLMの課題の根本はメモリの壁で、MoE + SSDストリーミングがその解。そして手持ちのRyzen 9 7900X3D + RTX 4070 Superが、この解を実証する実験機として完璧に揃っている。新規投資ゼロで今日から始められる。UIAPduinoの埋田氏が「既存技術の組み合わせで290円を実現」したように、このプロジェクトも「既存技術(llama.cpp、MoE、NVMe mmap)の組み合わせ」で成立する。あとは、やるだけだ。
「500Bのモデルを、4GBのメモリを積んだ1万円台の箱で動かす。埋田氏の290円マイコンボードが100均の棚に並ぶ未来と、この箱が家電量販店の棚に並ぶ未来は、同じ思想の延長線上にある。」