さとまたwiki
🧊

さとまたちゃんのLLM専用基盤開発

「4GBで500B」を個人の手で実現する。Ryzen 9 7900X3D + RTX 4070 Super の実機で今日から検証開始

LLM基盤 MoE特化 個人量産 4GB×500B オープンハードウェア

🎯 プロジェクトの目的

LLMが当たり前のインフラになった一方で、使える人と使えない人の格差が広がっている。月数万円のクラウドAPI課金、数十万円のGPU投資、プライバシー不安——これらを解く個人所有のLLM専用機を作る。目標は「1万円台の箱を1回買えば、生涯ローカルで大規模LLMが動く世界」。

🎯 現状把握

LLM運用の構造的課題を分解

🔀 技術選択

MoEとSSDストリーミングで解く

🏭 実装

UIAPduino方式の個人量産で箱にする

📉 LLMの現在の5つの課題

課題現状本プロジェクトの解
メモリの壁70B級で140GB+のVRAM必要。家庭用GPUでは不可能MoE + Q2量子化 + SSDストリーミングで4GBに圧縮
クラウド依存コストGPT-4 APIで月1〜10万円、個人利用でも重いローカル推論で完全定額化(電気代のみ)
プライバシー機密データをOpenAI/Anthropicに送る不安完全ローカル実行で外部送信ゼロ
専用機の空白Mac mini / 一般PC流用しかない。「LLM専用」の箱が存在しないLLM特化設計の専用ハード(Raspberry Piポジション)
モデル更新のコスト新モデルが出るたびハード買い替えが示唆されるSSD差し替えだけでモデル交換可能な設計

これらは互いに絡み合っている。メモリの壁があるからクラウドに行き、クラウドに行くから月額課金が発生し、そこにデータを送るからプライバシー問題が起きる。根っこはメモリの壁だ。ここを崩せば、残り4つは連鎖的に解ける。

🔀 MoEがなぜ解になるのか

詳細は MoEアーキテクチャ大解剖 に譲るが、要点だけ再掲する。MoEは「計算量を減らす技術」ではなく「メモリに常駐させる量を選べる技術」だ。

① 全Expertの重みをSSDに置く

500Bモデル全体を1TB NVMeに格納(Q2量子化で約100GB)

② Top-K個だけをメモリに呼び出す

DeepSeek V3 方式なら256個中8個のみアクティブ。物理メモリ2〜4GBで収まる

③ ホットExpertをLRUキャッシュ

頻出Expertは残し、稀にしか使わないExpertはSSDに戻す

この3点を支えるには、「PCIe 5.0 NVMe(14GB/s)」「X3Dキャッシュの大きなCPU」「MoEに特化した推論エンジン」の3点セットが必要。ちょうど手元のPCに前2つが揃っている。今すぐ実証開始できる状態だ。

💻 手持ちハードウェアで何ができるか

幸いなことに、手持ちのPCはこのプロジェクトのPhase 1実証に理想的な構成だ。大規模モデルの動作検証からエキスパートキャッシュの実装まで、新規投資ゼロで進められる。

🔧 マシンスペック詳細

部位スペック本プロジェクトでの意味
CPUAMD Ryzen 9 7900X3D(12コア24スレッド、3D V-Cache 128MB L3)X3Dの巨大L3キャッシュがLLM推論に強く効く。CPUオフロード時に特に有利
GPUNVIDIA RTX 4070 Super(12GB GDDR6X、7168 CUDA core)CUDA環境で llama.cpp / vLLM / Ollama が即動く。Mixtral 8x7B Q4級まで単体で推論可能
RAMDDR5 32GBGPUに乗らない重みをここに逃がせる。Mixtral 8x22B Q4(約80GB)は無理だが、大半のモデルはカバー
StorageNVMe SSD(想定)SSDストリーミング推論の実証に必須。PCIe 4.0 以上なら帯域7GB/s確保

結論:このPCは「4GBで500B」の実証実験マシンとして完全に通用する。

物理メモリを意図的に4GB相当に制限して動かすテストが、今日から可能。

📊 このPCで動くモデル予想

モデル総パラメモリ要求このPCでの動作予想速度
Llama 3 8B Q48B5GBGPU完全収容、即動作60〜80 tok/s
Llama 3 70B Q470B40GBGPU 12GB + CPU 28GB offload3〜5 tok/s
Mixtral 8x7B Q447B24GBGPU 12GB + CPU 12GB offload10〜15 tok/s
Mixtral 8x7B Q247B14GBGPU完全収容寸前、CPU少し併用25〜35 tok/s
DeepSeek R1 Distill Qwen 32B Q432B20GBGPU 12GB + CPU 8GB offload8〜12 tok/s
Qwen1.5 MoE 14B Q414B8GBGPU完全収容50〜70 tok/s
DeepSeek V3 671B Q2671B200GBSSDストリーミング実装で初めて可能目標 1〜3 tok/s

最後のDeepSeek V3行が、このプロジェクトの勝負所。通常の llama.cpp では 200GB のメモリ(またはVRAM)が必要でこのPCでは動かない。自作するExpertキャッシュ付き推論エンジンが動けば、手持ちPCで671Bを動かせる。これが実現すれば、4GBハードへの移植は単に縮小するだけの作業になる。

🗺️ 3段階ロードマップ

UIAPduinoの「1,980円で1年間市場テスト→290円に改定」と同じ思想で、段階を踏む。ソフトウェアで勝ち筋を確認してから、ハードを起こす。

🔵 Phase 1:手持ちPCで実証(0〜6ヶ月)

  • ・新規投資ゼロ。今のPCだけで進む
  • ・llama.cpp のフォーク、Expert キャッシュ実装
  • ・Mixtral 8x7B → DeepSeek V3 の順にメモリ制限下で動作確認
  • ・物理メモリを sysctl / WSL2 で4GB制限し、SSDオフロードが機能するか測定
  • ・ブログ・GitHub で進捗公開

🟣 Phase 2:SBCプロトタイプ(6〜12ヶ月)

  • ・Rockchip RK3588 or SG2380評価ボード購入(5,000〜15,000円)
  • ・Phase 1で作った推論エンジンを aarch64 / RISC-V にクロスビルド
  • ・実機でのトークン/秒を測定、PCとの差分を埋める
  • ・放熱・電源設計のプロトタイプ(3Dプリント筐体)
  • ・5〜10台製造、協力者に配布してデバッグ

🟢 Phase 3:量産とオープン化(12〜24ヶ月)

  • ・基板のガーバー・BOM・筐体STL・ファームを全てGitHub公開
  • ・製造工程の動画化(埋田氏方式)
  • ・JLCPCB に 100〜500台ロット発注、自宅で全数検査・梱包・クリックポスト出荷
  • ・目標小売価格 12,000円(SSD別売)
  • ・先行100台は早期支援者向け

🏗️ 専用ハードウェア設計

部位選定案理由
SoCRockchip RK3588 / Bouffalolab BL808 / SG2380NPU 6TOPS級、PCIe 3.0以上、単価5,000円以下
メモリLPDDR5 4GB(あえて抑える)「制約こそブランド」。16GB載せたら普通のSBCになる
ストレージNVMe M.2 2280 スロット(ユーザー装着)SSD差し替えでモデル交換可能。1TB推奨・別売
アクセラレータSoC内蔵NPU優先、オプションでHailo-8外付けGPUは電源・熱・価格で却下
I/OUSB-C PD / Ethernet / HDMIヘッドレス運用前提
筐体アルミ削り出し(量産時)、3Dプリント(プロト)放熱にNVMe冷却を兼ねる
目標BOM本体12,000円 / SSD別ラズパイ5+Hailo相当の価格帯

SoC選定はPhase 1〜2の推論速度次第。RK3588は入手容易で実績豊富だが、SG2380(RISC-V)が実用化すれば「UIAPduinoの思想を純粋に継承」できる選択肢になる。

📋 具体的アクションプラン

🚀 今週の実行タスク(新規投資ゼロ)

  1. llama.cpp を手元PCでビルド、CUDA有効化を確認
  2. Mixtral 8x7B Q4_K_M を Hugging Face からダウンロード(26GB、NVMe必須)
  3. llama-cli で推論を走らせ、VRAM使用量・トークン/秒をCSV記録(ベースライン)
  4. 同じモデルをQ2_Kに差し替えて再計測、精度劣化もベンチマーク
  5. DeepSeek V3 論文 + BitNet b1.58 論文を1枚A4にまとめる
  6. GitHub に新規リポジトリ作成(仮称 satomata-llm-edge)、READMEに「Ryzen 9 7900X3D + RTX 4070 Super で500Bを動かす」と宣言

1ヶ月目

llama.cpp 内部構造の読解(特に ggml-cuda.cu の offload 機構、mmap 処理)。Expert ルーティングのログ出力を追加し、Mixtralの実際のExpert選択パターンを観測。

2〜3ヶ月目

llama.cpp フォークにExpertキャッシュ(LRU方式、C++)を実装。4GBメモリ制限下(cgroupsで擬似環境)でMixtralが動くことを確認。初ベンチマーク公開。

4〜6ヶ月目

DeepSeek V3 の256エキスパートアーキテクチャに対応拡張。OLMoE 7B-1B でも検証し、Expert粒度とキャッシュヒット率の関係を数値化。llama.cpp 本体にPR提出。

7〜12ヶ月目

SBC実機(RK3588等)に移植。クロスコンパイル環境整備。プロトタイプ基板の設計開始、KiCadで発注準備。

🎯 まとめ

LLMの課題の根本はメモリの壁で、MoE + SSDストリーミングがその解。そして手持ちのRyzen 9 7900X3D + RTX 4070 Superが、この解を実証する実験機として完璧に揃っている。新規投資ゼロで今日から始められる。UIAPduinoの埋田氏が「既存技術の組み合わせで290円を実現」したように、このプロジェクトも「既存技術(llama.cpp、MoE、NVMe mmap)の組み合わせ」で成立する。あとは、やるだけだ。

「500Bのモデルを、4GBのメモリを積んだ1万円台の箱で動かす。埋田氏の290円マイコンボードが100均の棚に並ぶ未来と、この箱が家電量販店の棚に並ぶ未来は、同じ思想の延長線上にある。」