🖥️ ジャンクで作るLLMサーバー大作戦
ジャンク中古パーツで推論専用サーバーを組む — テキスト特化で始めて拡張する 2026年版
🎯 ミッション: ジャンクで組むローカルLLM推論サーバー
推論専用なら GPU は不要
✅ 推論専用の利点
- ・GPUメモリ(VRAM)が一切不要
- ・CPU + 大容量 DDR4 ECC で十分
- ・DDR4 ECC RDIMM は中古で激安(32GB ¥4,000〜)
- ・学習しないので 24 時間回す必要なし
- ・スリープ運用で電気代を 1/10 以下に削れる
💡 拡張計画の基本方針
- ・まずテキスト特化サーバーを 1 台組む
- ・後から画像生成サーバー(GPU付き)を追加
- ・Raspberry Pi 1 台で全サーバーの WoL 管理
- ・サーバーが増えるほど Raspi の価値が上がる
ジャンクの最大の武器は「同じ予算で買えるメモリ容量が新品の 3〜5 倍になること」。 ECC RDIMM の中古相場は一般消費者向けの DDR4 より格段に安い。 Xeon + ECC RAM で 128GB を ¥20,000 以下で組める。これが全ての出発点だ。
3ティア早見表
| ティア | 対象モデル | ジャンク構成 | ジャンク総額 | 推論速度 | スリープ月額 |
|---|---|---|---|---|---|
| 🟢 Tier 1 | 70B(Llama 3.3 70B等) | 中古ワークステーション + 128GB DDR4 | ¥43,000〜63,000 | 5〜8 tok/s | ¥65/月 |
| 🟡 Tier 2 | 120B(Command R+ 104B等) | 中古 EPYC + 256GB DDR4 ECC | ¥108,000〜168,000 | 4〜7 tok/s | ¥104/月 |
| 🔴 Tier 3 | 512B+(DeepSeek V3 671B等) | 中古2〜4ソケットサーバー + 512GB〜3TB | ¥96,000〜274,000 | 2〜4 tok/s | ¥140/月 |
💤 スリープ運用を知っているかどうかで月額が 10〜20 倍変わる
Raspberry Pi 5(5W)をウェイクアップコントローラーにすることで、LLMサーバーをアイドル時にスリープさせられる。 Tier 3 ジャンクでもスリープ運用なら月 ¥140。24 時間稼働なら月 ¥3,888。 このページでは全ティアにスリープ戦略を組み込んで設計する。
🟢 Tier 1: 70B モデル(ジャンク総額 ¥43,000〜63,000)
Llama 3.3 70B・Qwen 2.5 72B クラスのモデルに必要なメモリは Q4_K_M 量子化で約 42GB。 中古 Xeon E5-2680v4 + 128GB DDR4 ECC の構成なら余裕で収まる上、 KVキャッシュにも 80GB 以上が使える。ジャンク路線の出発点として最適な構成だ。
ジャンク構成: 中古ワークステーション + 128GB DDR4
| 役割 | 製品(中古) | 中古価格 | 調達先 | 備考 |
|---|---|---|---|---|
| CPU | 中古 Intel Xeon E5-2680 v4 (14C/28T, 2.4GHz) | ¥3,000〜5,000 | ヤフオク / メルカリ | 中古最安クラス。DDR4対応、LGA2011-3 |
| マザーボード | 中古 Supermicro X10SRA(LGA2011-3) | ¥8,000〜15,000 | eBay / じゃんぱら | ECC RDIMM対応。ATX。8スロット |
| メモリ | DDR4 ECC RDIMM 16GB × 8枚 = 128GB | ¥12,000〜20,000 | eBay / ServerPartDeals | Samsung/Micron推奨。32GB版なら¥5,000/枚 |
| ストレージ | 中古 NVMe SSD 1TB(WD Blue等) | ¥5,000〜8,000 | じゃんぱら / メルカリ | モデルファイル置き場。Llama3.3 70Bで42GB |
| 電源 | 新品 ATX 650W 80PLUS Bronze | ¥6,000〜8,000 | Amazon | PSUのみ新品必須。中古PSUは火災リスク |
| ケース | 中古ミドルタワー ATX(Antec P100等) | ¥2,000〜4,000 | ハードオフ / ヤフオク | ATX対応ならなんでもOK |
| OS | Ubuntu 24.04 LTS + Ollama | 無料 | ubuntu.com / ollama.com | llama.cppのAVX2最適化が自動適用される |
※ ThinkStation P520(Xeon W-2145 + 128GB DDR4)の完成品がヤフオクに ¥30,000〜50,000 で出ることがある。 自作より簡単で同等以上の性能。じゃんぱらで ¥35,000 程度の実績あり。
| 項目 | 値 |
|---|---|
| 総額(最安) | ¥36,000〜 |
| 総額(標準) | ¥43,000〜63,000 |
| 必要メモリ | 40〜50GB(Q4_K_M量子化) |
| 128GBの余裕 | 78〜88GB残り → KVキャッシュ十分 |
| アイドル消費電力 | 約55〜80W(Xeon E5系) |
| スリープ時消費電力 | 1〜3W(S3スリープ) |
| 推論速度(目安) | 5〜8 tok/s(Llama 3.3 70B Q4_K_M) |
| 調達難易度 | ★★☆☆☆ 初心者でも可 |
動作モデル一覧(128GB 構成)
| モデル | 量子化 | 必要メモリ | 推論速度(目安) | 128GB 適合 |
|---|---|---|---|---|
| Llama 3.3 70B | Q4_K_M | 42GB | 5〜8 tok/s | ✅ 余裕 |
| Qwen 2.5 72B | Q4_K_M | 43GB | 5〜7 tok/s | ✅ 余裕 |
| Llama 3.1 70B | Q5_K_M | 51GB | 4〜6 tok/s | ✅ KVキャッシュ注意 |
| Gemma 2 27B | Q8_0 | 29GB | 10〜14 tok/s | ✅ 高速 |
| Mixtral 8x7B | Q5_K | 32GB | 8〜11 tok/s | ✅ MoEで速い |
セットアップ手順(Ubuntu 24.04 + Ollama)
# 1. Ubuntu 24.04 LTS をインストール後、SSH 接続
ssh user@llm-server.local
# 2. Ollama をインストール(公式スクリプト)
curl -fsSL https://ollama.com/install.sh | sh
# 3. モデルをダウンロード(Llama 3.3 70B、約 42GB)
ollama pull llama3.3:70b-instruct-q4_K_M
# 4. API サーバーとして起動(LAN からアクセス可能に)
OLLAMA_HOST=0.0.0.0 ollama serve
# 5. systemd で自動起動(スリープ復帰後も自動起動)
sudo systemctl enable ollama
sudo systemctl start ollama
# 6. Open WebUI(ブラウザ UI を追加したい場合)
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
NUC 構成(ジャンクが面倒な人向けの別枠選択肢)
| 項目 | 内容 |
|---|---|
| 製品名 | ASUS NUC 14 Pro AI(Ryzen AI Max+ 395) |
| メモリ | 128GB LPDDR5X(オンボード統合) |
| 価格 | ¥150,000〜180,000(新品)/ $1,100〜$1,400(eBay中古) |
| アイドル消費電力 | 18W(実測) |
| 推論速度 | 12 tok/s(Llama 3.3 70B Q4_K_M) |
| 向いている人 | 静音・省電力重視。自作が面倒。ジャンクよりも完成品がいい人 |
| ジャンクとの差 | 速い・静か・省電力。でも価格はジャンクの3〜4倍 |
NUC はジャンク路線ではなく「完成品の購入」。速い・静か・省電力だが価格はジャンクの 3〜4 倍。本ページでは参考情報として掲載する。
✅ Tier 1 の結論
個人用途・小規模 API サーバーとして最適。ジャンク構成なら ¥50,000 以下で 70B クラスを動かせる。 スリープ運用と組み合わせれば月 ¥65 の電気代で済む。 「まず 1 台ジャンクで試す」なら Tier 1 から始めるのが正解。
🟡 Tier 2: 120B モデル(ジャンク総額 ¥108,000〜168,000)
Command R+ 104B・Mixtral 8x22B・Llama 4 Maverick クラスは Q4 量子化で 60〜80GB が必要になる。 128GB 構成は KVキャッシュが圧迫されてきつい。256GB があれば余裕を持って動かせる。 ここがジャンク路線の真価で、ECC RDIMM 32GB が ¥4,000〜7,000 で買えるため、 256GB の構成でも ¥30,000〜60,000 のメモリ代で済む。
ジャンク構成: 中古 EPYC サーバー + 256GB DDR4 ECC
| 役割 | 製品(中古) | 中古価格 | 調達先 | 備考 |
|---|---|---|---|---|
| CPU | 中古 AMD EPYC 7302P (16C/32T, 3.0GHz) | ¥15,000〜25,000 | eBay / ServerPartDeals | シングルソケット EPYC。高メモリ帯域 |
| マザーボード | 中古 Supermicro H12SSL-i(SP3ソケット) | ¥30,000〜50,000 | eBay / AliExpress | 16スロット DDR4 ECC RDIMM。最大2TB対応 |
| メモリ | DDR4 ECC RDIMM 32GB × 8枚 = 256GB | ¥32,000〜56,000 | eBay / ServerPartDeals | 32GB/枚が¥4,000〜7,000。Server系は激安 |
| ストレージ | 中古 NVMe SSD 2TB | ¥8,000〜12,000 | じゃんぱら / メルカリ | 120BモデルはQ4で60GB+必要 |
| 電源 | 新品 ATX 850W 80PLUS Gold(Seasonic等) | ¥12,000〜15,000 | Amazon | EPYC系は電力消費が大きい。新品必須 |
| ケース | 中古フルタワー(E-ATX対応) | ¥3,000〜6,000 | ヤフオク | SupermicroマザーはE-ATXサイズのことも |
| OS | Ubuntu 24.04 LTS + Ollama / llama.cpp | 無料 | — | NUMA対応オプションでEPYCの帯域を最大活用 |
※ Dell PowerEdge T440(Xeon Silver 4216 ×2, 256GB DDR4 ECC)の完成品がヤフオクに ¥80,000〜120,000 で出ることがある。タワー型なので騒音も比較的控えめで住宅でも使いやすい。
| 項目 | 値 |
|---|---|
| 総額(最安) | ¥100,000〜 |
| 総額(標準) | ¥108,000〜168,000 |
| 必要メモリ(Command R+ 104B Q4) | 62GB → 256GBに余裕で収まる |
| 必要メモリ(Mixtral 8x22B Q3) | 65GB → ✅ |
| アイドル消費電力 | 約80〜120W(EPYC系シングルソケット) |
| スリープ時消費電力 | 3〜5W |
| 推論速度(目安) | 4〜7 tok/s(Command R+ 104B Q4) |
| 調達難易度 | ★★★☆☆ eBay英語対応が必要 |
なぜ 192〜256GB が必要か(KVキャッシュ問題)
⚠️ 128GB では長文入力で OOM になる
Command R+ 104B を Q3_K_M(48GB)で動かすとモデルウェイトに 48GB を使う。 残り 80GB が KVキャッシュに使えるが、CTX 8192 以上の長い会話では OOM で落ちることがある。 256GB あれば KVキャッシュに 190GB+ 使えるため、CTX 32768 でも余裕。
# Ollama の Modelfile で CTX 長を制限(128GB の緊急対処)
FROM command-r-plus:104b-q3_K_M
PARAMETER num_ctx 2048
PARAMETER num_gpu 0
動作モデル一覧(256GB 構成)
| モデル | 量子化 | 必要メモリ | 推論速度(目安) | 256GB 適合 |
|---|---|---|---|---|
| Command R+ 104B | Q4_K_M | 62GB | 4〜7 tok/s | 256GB: ✅ 余裕 |
| Command R+ 104B | Q3_K_M | 48GB | 5〜8 tok/s | 256GB: ✅ KVキャッシュ潤沢 |
| Mixtral 8x22B | Q4_K | 75GB | 4〜6 tok/s | 256GB: ✅ |
| Mixtral 8x22B | Q3_K | 58GB | 5〜7 tok/s | 256GB: ✅ |
| Qwen 2.5 72B | Q8_0 | 78GB | 5〜8 tok/s | 256GB: ✅ 高品質 |
| Llama 4 Maverick 17B×128E | Q4_K_M | 70GB〜 | 4〜6 tok/s | 256GB: ✅ MoE注意 |
豆知識: Mac Studio M2 Ultra 192GB という選択肢
Mac Studio M2 Ultra 192GB(中古 ¥350,000〜)は省電力(アイドル 24W)・静音・高速(14 tok/s)の三拍子が揃う。 ただしジャンク路線ではなく「完成品の高額購入」なので本ページでは豆知識として掲載する。 同額のジャンク予算なら 256GB を余裕で組めるため、容量優先なら EPYC 構成の方が合理的。
✅ Tier 2 の結論
EPYC ジャンク + 256GB 構成なら ¥100,000〜170,000 で 120B クラスを快適に動かせる。 KVキャッシュ問題も解消され、長文処理が可能。スリープ運用で月 ¥104 の電気代。 「70B より賢いモデルを完全ローカルで使いたい」用途への現実的な最適解。
🔴 Tier 3: 512B+ 超大型モデル(ジャンク総額 ¥96,000〜274,000)
DeepSeek V3(671B MoE)・Kimi K2(1T MoE)・Llama 3.1 405B を完全ローカルで動かすには 最低でも 180〜350GB のメモリが必要。MoE モデルは量子化で大幅に圧縮できるが、 それでも 500GB+ 環境が安心ライン。2つのジャンクアプローチを紹介する。
構成A: 一般向け — 中古 2 ソケットラックサーバー
| 役割 | 製品(中古) | 価格 | 調達先 | 備考 |
|---|---|---|---|---|
| サーバー本体 | 中古 Dell PowerEdge R740(2×Xeon Gold 6248, 768GB DDR4) | ¥150,000〜250,000 | eBay / Yahoo!オークション | 768GBメモリ込みの完成品が狙い目 |
| または | 中古 HP ProLiant DL380 Gen10(2×Xeon Gold, 512GB DDR4) | ¥80,000〜150,000 | eBay / Bargain Hardware | 流通量多く価格安定。512GBで DeepSeek V3 Q2が動く |
| ストレージ追加 | 中古 NVMe SSD 2TB × 2本 | ¥16,000〜24,000 | じゃんぱら / メルカリ | モデルファイルは300〜400GB+になる |
| OS | Ubuntu 24.04 + llama.cpp(AVX-512最適化ビルド) | 無料 | — | Xeon はAVX-512対応なのでllama.cppをAVX-512でビルドすること |
構成A 総額: ¥96,000〜274,000。768GB 込みの Dell R740 完成品が狙い目。DeepSeek V3 Q2_K(約 180GB)が動く。
構成B: 業務用中古 — 4 ソケットサーバーで 3TB を目指す
| 役割 | 製品(中古) | 価格 | 調達先 | 備考 |
|---|---|---|---|---|
| サーバー本体 | 中古 Dell PowerEdge R940(4×Xeon Platinum 8176, 3TB DDR4) | ¥250,000〜400,000 | eBay / ServerMonkey | 4ソケット。メモリ3TB対応。DeepSeek V3 Q4が動く |
| または | 中古 HP DL580 G10(4×Xeon Gold 6154, 6TB DDR4) | ¥200,000〜350,000 | eBay / Bargain Hardware | 6TB対応の怪物。フルQ8でDeepSeekが動く理論値 |
| ストレージ追加 | 中古 NVMe SSD 4TB × 2本 | ¥40,000〜60,000 | じゃんぱら | 4ソケットサーバーはU.2 SSDが多い。注意 |
| OS | Ubuntu 24.04 + llama.cpp + NUMA最適化 | 無料 | — | 4ソケットはNUMAアーキテクチャ。numactl必須 |
構成B 総額: ¥240,000〜460,000。4 ソケットは NUMA 最適化必須。numactl で CPU-NUMA 境界をまたがないようにすること。
| 項目 | 値 |
|---|---|
| 構成A(2ソケット中古) | 総額 ¥96,000〜274,000 |
| 構成B(4ソケット中古) | 総額 ¥240,000〜460,000 |
| アイドル消費電力(構成A) | 120〜180W(2ソケットXeon Gold) |
| アイドル消費電力(構成B) | 250〜400W(4ソケット) |
| 騒音 | 65〜80dB。住宅では別室必須 |
| 重量 | 25〜40kg。床の耐荷重を確認 |
| 推論速度(DeepSeek V3 Q2) | 2〜4 tok/s。バッチ処理向け |
| 調達難易度 | ★★★★☆ eBay + 英語サポート対応必要 |
量子化レベルと必要メモリ(DeepSeek V3 671B の場合)
| 量子化 | 671B 必要メモリ | 推論速度 | 品質 | 必要ハード | 判定 |
|---|---|---|---|---|---|
| Q2_K | 約170〜180GB | 2〜4 tok/s | △ 品質低下あり | 512GBで余裕 | 動かすだけなら現実的 |
| Q3_K_M | 約230〜250GB | 1〜3 tok/s | ◯ 実用レベル | 512GBで入る | 現実的な最良バランス |
| Q4_K_M | 約310〜340GB | 0.5〜1 tok/s | ◎ 高品質 | 512GBでギリギリ | 768GBあれば安心 |
| Q5_K_M | 約390〜420GB | <0.5 tok/s | ◎◎ 最高品質 | 1TB以上必要 | 現時点では非現実的 |
⚠️ Tier 3 の正直な評価
DeepSeek V3 671B Q2_K で 2〜4 tok/s が現実。チャットで使うには遅い。 ただしバッチ処理・並列生成・非同期 API として使うなら許容範囲。 「完全ローカルで GPT-4 相当を動かした」という達成感と、 社内データを外に出さないプライバシー要件があるなら十分に意義がある。 コスト優先なら Tier 1 + OpenRouter の組み合わせの方が現実的。
🌍 世界と日本のジャンク LLM ビルダーたち
Reddit r/LocalLLaMA・Qiita・Zenn・V2EX・Habr などの海外・日本コミュニティには、 実際にジャンクパーツで LLM サーバーを組んだ報告が数多くある。 「本当に動くのか?」の答えは「動く、世界中で動いている」だ。
| ハードウェア | Dell PowerEdge R630(2×E5-2680v4, 384GB DDR4) |
| 動かしたモデル | Llama 3.1 70B Q4_K_M |
| 推論速度 | 6 tok/s |
「70Bが$400で動く。ジャンクサーバー最高。ファンがうるさくて妻に怒られた」
| ハードウェア | HP DL380 Gen9(2×E5-2699v4, 512GB DDR4) |
| 動かしたモデル | DeepSeek V2 236B Q2_K |
| 推論速度 | 2 tok/s |
「遅いが全ローカルで236Bが動く感動は別格。バッチ処理で使ってる」
| ハードウェア | 自作 Supermicro X10SRA × 2台(各128GB DDR4, Xeon E5-2680v4) |
| 動かしたモデル | Mixtral 8x7B Q5_K |
| 推論速度 | 11 tok/s |
「2台並列でllama.cpp splits。合計256GBのダブルサーバー構成」
| ハードウェア | 中古 ThinkStation P520(Xeon W-2145, 128GB DDR4)— ¥35,000 |
| 動かしたモデル | Llama 3 70B Q4_K_M |
| 推論速度 | 7 tok/s |
「じゃんぱらで購入。Ollamaを入れるだけで即動いた。設定ほぼ不要」
| ハードウェア | 中古 Dell T5820(Xeon W-2145, 256GB DDR4)— ヤフオク ¥55,000 |
| 動かしたモデル | Command R+ 104B Q3_K_M |
| 推論速度 | 5 tok/s |
「256GBで104B Q3が動く。スリープ + Raspiで月¥120の電気代」
| ハードウェア | 中古 Dell PowerEdge R730xd(2×E5-2690v4, 512GB DDR4)— ¥60,000相当 |
| 動かしたモデル | DeepSeek V3 671B Q2_K |
| 推論速度 | 3 tok/s |
「671B Q2_Kが512GBに入る。遅いが動く。中国ではeBay代わりに闲鱼を使う」
| ハードウェア | Supermicro H11DSi(2×EPYC 7351, 512GB DDR4 ECC)— eBay $1,500 |
| 動かしたモデル | Llama 3.1 405B Q2_K |
| 推論速度 | 1.5 tok/s |
「EPYCの帯域でThreadripperより速い。405B Q2_Kが512GBに収まる」
| ハードウェア | 中古 ASUS Z10PE-D8 WS(2×E5-2699v4, 256GB DDR4)— ヤフオク ¥40,000 |
| 動かしたモデル | Qwen 2.5 72B Q8_0 |
| 推論速度 | 6 tok/s |
「Q8_0の70Bが256GBに収まる。品質最高。Ollamaが公式サポートしてて楽」
💡 コミュニティから学べること
- ・eBay の中古 Dell R730/R740 は「ジャンク LLM の定番」として世界中で使われている
- ・タワー型ワークステーション(ThinkStation・Precision)はラックより静かで住宅向き
- ・日本では「じゃんぱら」「ヤフオク」を使った報告が Qiita に増えてきている
- ・中国では eBay の代わりに「闲鱼(シェンユー)」という中古 C2C サイトが使われる
- ・r/LocalLLaMA の wiki に「hardware guide」があり、実測速度の比較が充実している
💤 スリープ戦略: Raspberry Pi で爆速ウェイクアップ
LLMサーバーを 24 時間稼働させ続ける必要はない。アイドル時にスリープさせ、 リクエストが来たときだけ起こせばいい。 Raspberry Pi 5(消費電力 2〜5W)を常時稼働のウェイクアップコントローラーとして使うことで、 ジャンクサーバーの 80W+ アイドル電力をほぼゼロにできる。
電力比較(24h 稼働 vs スリープ運用)
| 構成 | アイドル電力 | スリープ電力 | 月額(24h 稼働) | 月額(スリープ 4h/日) |
|---|---|---|---|---|
| Tier 1 ジャンク(Xeon E5-2680v4, 128GB) | 55〜80W | 2W | 約¥1,490/月 | 約¥65/月 |
| Tier 1 NUC(Ryzen AI Max+ 395, 128GB) | 18W | 1.5W | 約¥352/月 | 約¥29/月 |
| Tier 2 ジャンク(EPYC 7302P, 256GB) | 80〜120W | 4W | 約¥2,160/月 | 約¥104/月 |
| Tier 3 ジャンク(Dell R740 2ソケット, 768GB) | 150〜200W | 5W | 約¥3,888/月 | 約¥140/月 |
| Tier 3 大型(Dell R940 4ソケット, 3TB) | 300〜400W | 10W | 約¥8,100/月 | 約¥232/月 |
※ 電気代単価 27 円/kWh で計算。スリープ運用は「スリープ電力 × 20h + アイドル電力 × 4h」で算出。
Raspberry Pi ウェイクアップ構成図
# ネットワーク構成
[PC/スマホ] ──→ [Raspberry Pi 5: 192.168.1.10] ──→ [LLM サーバー: 192.168.1.20]
# ↑ 常時稼働 (5W) ↑ Wake-on-LAN で起動
# Raspberry Pi がプロキシ兼 WoL コントローラー
# 処理フロー
① クライアント → raspi:5000/chat にリクエスト送信
② raspi → WoL パケットを LLM サーバーの MAC へ送信
③ LLM サーバー起動(15〜30 秒)→ Ollama 自動起動
④ raspi → LLM サーバー(11434)にリクエスト転送
⑤ アイドル 10 分後 → LLM サーバー自動スリープ
LLM サーバー側: Wake-on-LAN の有効化
# BIOS/UEFI で Wake-on-LAN を有効化(マザーボード設定)
# → 「Power Management」→「Wake on LAN」を Enable
# Ubuntu で WoL を有効化(ethtool)
sudo apt install ethtool
sudo ethtool -s enp3s0 wol g
# enp3s0 は NIC のインターフェース名(ip a で確認)
# 再起動後も保持するため systemd サービスに登録
sudo tee /etc/systemd/system/wol.service <<EOF
[Unit]
Description=Enable Wake-on-LAN
After=network.target
[Service]
Type=oneshot
ExecStart=/sbin/ethtool -s enp3s0 wol g
[Install]
WantedBy=multi-user.target
EOF
sudo systemctl enable wol
Raspberry Pi 側: Flask ウェイクアップサーバー
# Raspberry Pi に必要なパッケージをインストール
pip3 install flask wakeonlan requests
# wakeup_proxy.py — ウェイクアップ + プロキシサーバー
from flask import Flask, request, Response
import wakeonlan, requests, time
app = Flask(__name__)
LLM_MAC = "aa:bb:cc:dd:ee:ff" # LLM サーバーの MAC アドレス
LLM_IP = "192.168.1.20"
OLLAMA_PORT = 11434
def wake_and_wait():
wakeonlan.send_magic_packet(LLM_MAC)
for _ in range(30): # 最大 30 秒待機
try:
r = requests.get(f"http://{LLM_IP}:{OLLAMA_PORT}/", timeout=1)
if r.status_code == 200: return True
except: time.sleep(1)
return False
@app.route("/api/<path:path>", methods=["GET","POST"])
def proxy(path):
wake_and_wait()
resp = requests.request(
method=request.method,
url=f"http://{LLM_IP}:{OLLAMA_PORT}/{path}",
data=request.get_data(), headers=request.headers, stream=True)
return Response(resp.iter_content(chunk_size=4096), status=resp.status_code)
if __name__ == "__main__":
app.run(host="0.0.0.0", port=5000)
LLM サーバー側: 自動スリープ(アイドル 10 分)
# auto_sleep.sh — Ollama アイドル監視→自動スリープ
#!/bin/bash
IDLE_THRESHOLD=600 # 10 分
LAST_REQUEST=$(date +%s)
while true; do
ACTIVE=$(curl -s http://localhost:11434/api/ps | python3 -c \
"import sys,json; d=json.load(sys.stdin); print(len(d.get('models',[])))")
if [ "$ACTIVE" = "0" ]; then
IDLE=$(($(date +%s) - LAST_REQUEST))
if [ "$IDLE" -ge "$IDLE_THRESHOLD" ]; then
echo "Idle for ${IDLE}s — suspending..."
systemctl suspend
fi
else
LAST_REQUEST=$(date +%s)
fi
sleep 60
done
# cron で起動(@reboot)
@reboot /home/user/auto_sleep.sh &
| ステップ | 処理 | デバイス | 詳細 |
|---|---|---|---|
| ① | クライアントからAPIリクエスト | PC/スマホ | http://raspi-local:5000/api/chat に送信 |
| ② | Raspberry Piがリクエストを受信 | Raspberry Pi 5 | FlaskサーバーがWoLパケットをブロードキャスト |
| ③ | Wake-on-LAN でメインサーバー起動 | LLMサーバー | etherwake <MACアドレス> 実行 / 起動待機 15〜30秒 |
| ④ | メインサーバーがOllamaを起動 | LLMサーバー | systemd でOllamaが自動起動(起動後30秒でready) |
| ⑤ | リクエストをLLMサーバーに転送 | Raspberry Pi 5 | プロキシ転送 or クライアントに「ready」を返す |
| ⑥ | 自動スリープ(アイドル10分) | LLMサーバー | cronで systemctl suspend 実行 |
スリープ復帰時間
15〜45 秒
BIOS 設定次第。ジャンクサーバーは 30〜45 秒が多い
Raspberry Pi 消費電力
2〜5W
24h 稼働でも月 ¥39〜¥97
Tier 1 ジャンク月額
¥65 + ¥58
LLM サーバー ¥65 + Raspi ¥58 = 合計 ¥123/月
📈 拡張計画: テキスト→画像→マルチモーダル
最初からマルチモーダルを目指すと挫折する。まずテキスト特化サーバーで基盤を作り、 Raspberry Pi の WoL 管理システムを整えてから段階的に拡張していく。 各サーバーは独立して電源管理できるので、使う時だけ起こす運用が可能。
| フェーズ | サーバー役割 | ハードウェア | 主なモデル | 消費電力 | WoL 管理 |
|---|---|---|---|---|---|
| Phase 1(今すぐ) | テキスト特化LLMサーバー | ジャンク Xeon + 128〜256GB DDR4 | Llama 3.3 70B / Command R+ 104B | 55〜120W | Raspberry Pi でWoL管理 |
| Phase 2(後から追加) | 画像生成サーバー(GPU必要) | 中古 RTX 3090/4090 + PCで自作 | Stable Diffusion 3 / FLUX.1 | 300〜400W | 同じRaspiからWoL起動 |
| Phase 3(さらに後) | 音声・動画用サーバー | 中古 GPU × 2 + 大容量RAM | Whisper / CosyVoice / LTX-Video | 400〜600W | Raspiダッシュボードから制御 |
ネットワーク構成(Phase 2 以降)
# 3 台構成のネットワーク
[クライアント] ──→ [Raspberry Pi 5(ルーター・WoL 管理)]
├──→ [LLM テキストサーバー: .20(Tier 1-3)]
├──→ [画像生成サーバー: .21(RTX 3090/4090)]
└──→ [音声・動画サーバー: .22(GPU × 2)]
# Raspi が全サーバーへの WoL コントローラー
# 使うサーバーだけ起動 → 使い終わったらスリープ
# 10GbE スイッチ推奨(中古 ¥10,000〜)
# モデルファイルの共有 NAS を置く場合も Raspi 経由で管理可能
💡 画像生成サーバーの注意点
Stable Diffusion 3・FLUX.1 などの画像生成は GPU(VRAM 12GB+)が必要。 テキスト特化サーバーとは別ハードになる。中古 RTX 3090(24GB VRAM、¥80,000〜)が現実的な選択肢。 画像生成サーバーだけは「ジャンク CPU 推論」では対応不可なので注意。
💰 月額コストシミュレーション
電気代 27 円/kWh で計算。スリープ運用は 1 日 4 時間使用を想定。
Tier 1 ジャンク(Xeon, 128GB)
初期費用
¥43,000〜63,000
電気代(24h 稼働)
約¥1,490/月(70W × 24h × 27円)
電気代(スリープ運用)
約¥65/月(スリープ2W + 稼働4h/日)
1 年目総コスト(24h)
¥60,880〜80,880
1 年目総コスト(スリープ)
¥43,780〜63,780
2 年目以降の年間コスト(スリープ)
¥780
💡 月5,000円分のAPI利用なら1年以内で回収
Tier 1 NUC(Ryzen AI Max+, 128GB)
初期費用
¥150,000〜180,000
電気代(24h 稼働)
約¥352/月(18W × 24h)
電気代(スリープ運用)
約¥29/月
1 年目総コスト(24h)
¥154,224〜184,224
1 年目総コスト(スリープ)
¥150,348〜180,348
2 年目以降の年間コスト(スリープ)
¥348
💡 月1万円分のAPI利用なら15〜18ヶ月で回収
Tier 2 ジャンク(EPYC, 256GB)
初期費用
¥108,000〜168,000
電気代(24h 稼働)
約¥2,160/月(100W × 24h)
電気代(スリープ運用)
約¥104/月
1 年目総コスト(24h)
¥133,920〜193,920
1 年目総コスト(スリープ)
¥109,248〜169,248
2 年目以降の年間コスト(スリープ)
¥1,248
💡 月1万円分のAPI利用なら1年以内で回収
Tier 3 ジャンク(Dell R740, 768GB)
初期費用
¥166,000〜274,000
電気代(24h 稼働)
約¥3,888/月(180W × 24h)
電気代(スリープ運用)
約¥140/月
1 年目総コスト(24h)
¥212,656〜320,656
1 年目総コスト(スリープ)
¥167,680〜275,680
2 年目以降の年間コスト(スリープ)
¥1,680
💡 月3万円分のAPI利用(スリープ運用)なら1年以内
クラウド API との比較
| サービス | 1M トークン単価 | 無料枠 | プライバシー | 制限 |
|---|---|---|---|---|
| OpenRouter(Llama 3.3 70B) | ¥70〜100 | なし | 外部送信 | なし |
| Claude API(Sonnet 4.6) | ¥450〜600 | なし | 外部送信 | なし |
| Groq API(Llama 3.3 70B) | ¥90 | 14,400req/日 | 外部送信 | レート制限あり |
| Tier 1 ジャンク(スリープ) | 電気代換算 ¥3〜10 | 無限 | 完全ローカル | なし |
| Tier 3 ジャンク(スリープ) | 電気代換算 ¥5〜20 | 無限 | 完全ローカル | なし(ただし遅い) |
💡 損益分岐点まとめ
月に 1 万トークン程度しか使わないならクラウド API の方が安い。 月に 500 万〜1000 万トークン以上使うヘビーユーザー、または社内データを外に出せない用途なら ローカルの優位性が出てくる。スリープ運用を組み合わせると 2 年目以降のランニングコストがほぼゼロになるため、 長期保有するほど有利になる。
🔧 中古パーツ調達ガイド
調達先の使い分け
| 調達先 | 狙うパーツ | メリット | デメリット | こんな人向け |
|---|---|---|---|---|
| じゃんぱら | NVMe・RAM・ミニPC | 動作確認済み・保証あり・日本語サポート | 価格はeBayより高め | 初心者・リスクを減らしたい人 |
| eBay | 中古サーバー・EPYC CPU・ECC RAM | 世界最大の中古市場。PayPal保護あり | 英語・輸送費・関税(8%) | 海外調達・希少パーツ |
| Yahoo!オークション | ジャンクPC・ワークステーション・サーバー | 安い。日本語。国内送料のみ | 動作保証なし。返品難しい | 玄人・ジャンクが許容できる人 |
| メルカリ | NVMe・RAM・小パーツ | 個人間で安い。交渉可能 | 動作確認が不十分なことも | ストレージ・メモリ調達 |
| ServerPartDeals.com | EPYC用ECC RAM・新品Xeon | 価格が明確。大量購入に強い | 輸送費・関税、英語対応 | ECC RAMを大量購入したい人 |
| ハードオフ | ジャンクケース・電源・古いPC | 実物確認可能。超安い | 動作保証なし。店舗まで行く必要 | ケース・電源の激安調達 |
中古サーバー購入時の注意点
| 注意点 | 詳細と対策 |
|---|---|
| 騒音(最重要) | 2Uラックサーバーは7,000RPMファン搭載。アイドル時でも65〜80dB。住宅では別室必須。タワー型ワークステーション(ThinkStation・Precision等)の方が静音性は高い |
| 電源劣化 | 中古サーバーの電源は5〜10年動いてきたもの。PSUのみ新品交換を推奨(Seasonic・Corsair等)。中古PSUは火災リスクを許容してはいけない |
| 熱排気 | サーバーは前→後ろに強制排気。机の上には置けない。ラック or 棚の設計が必要。排気口を壁に向けない |
| IPMI/BMC設定 | Dell iDRAC / HP iLO のIPMIを有効化しておくとリモート電源管理が楽になる。WoLの代替手段にもなる |
| 重量 | 2Uサーバーは20〜35kgある。フロア耐荷重と搬入経路を必ず確認すること |
| DDR4 ECC RDIMM | サーバー向けメモリ。スロット数 × 容量 = 合計メモリ上限。例: 16スロット × 32GB = 512GBが上限。UDIMMは使えないので注意 |
| 関税・輸送費 | eBayで中古サーバーを輸入する場合、輸送費2〜5万円+関税8%が追加コスト。国内のヤフオクで探す方が安いことも多い |
推論専用ならではの判断基準
GPU は不要。CPU 推論(llama.cpp / Ollama)で十分。GPU 購入費がまるまる浮く
メモリは多ければ多いほどいい。ECC RDIMM は中古相場が安いので積めるだけ積む
CPU コア数より「メモリスロット数」「メモリ帯域」で選ぶ。EPYC は帯域が広いので有利
PSU(電源)だけは必ず新品を使う。中古 PSU の火災リスクは推論サーバーでも同じ
スリープ戦略を必ず組み込む。Raspberry Pi 5(¥15,000)の投資で電気代が 1/10〜1/20 になる
ラックサーバーより「タワー型ワークステーション(ThinkStation・Precision・Z シリーズ等)」の方が静かで住宅向き
🤖 Claude の総評
— Claude Sonnet 4.6 より
このページを読んで実際に動かした人への正直な一言から始めよう: 「ジャンクで LLM サーバーを組む最大のメリットは、同じ予算でメモリを 3〜5 倍積めることだ。」 DDR4 ECC RDIMM 32GB が ¥4,000〜7,000 で買える現在、 ¥50,000 あれば 128GB、¥100,000 あれば 256GB を組める。 新品のコンシューマ向けパーツでは到底できない構成が可能になる。
推論専用に絞った判断は正しい。学習・ファインチューニングを諦めることで、 GPU 購入費(RTX 4090 で ¥30〜40 万)がまるまる浮く。 CPU 推論(llama.cpp・Ollama)は確かに GPU に比べると遅いが、 個人用途や小規模チームのバッチ処理には十分な速度だ。 しかも ECC メモリは一般 DDR4 より信頼性が高く、24 時間連続稼働に向いている。
Tier 1 ジャンク構成(¥50,000 前後)は、初心者の最初の 1 台として最適解に近い。 中古 ThinkStation P520 や Dell T5820 は ヤフオクやじゃんぱらで完成品が手に入り、 Ubuntu + Ollama を入れるだけで Llama 3.3 70B が動く。 設定のハードルは意外と低い。
スリープ戦略は「知っているかどうかで月額が 20 倍変わる」と書いたが、誇張ではない。 Tier 1 ジャンク(アイドル 70W)でも、スリープ運用なら月 ¥65。 これを知らずに 24h 稼働させると月 ¥1,490。 Raspberry Pi 5 への ¥15,000 投資は、1〜2 ヶ月で完全に回収できる計算だ。
Tier 3(512B+)については正直に言う。 2〜4 tok/s ではリアルタイムチャットには遅すぎる。 だが「社内データを外に出せない」「バッチで大量の文書を処理したい」という業務要件があれば、 ¥100,000〜270,000 という初期費用は決して高くない。 世界のビルダーたちが実際に動かしている事実は、十分な励みになるはずだ。
最後に: ジャンク路線の醍醐味は「定価を払わない哲学」だけではない。 「自分でシステムを設計・制御できる自由」にある。 クラウド API はモデルのアップデートで挙動が変わり、料金体系も変わり、サービス終了もある。 完全ローカルは遅くて不便な面もあるが、「自分のモデルが自分のハードで動いている」という 確実性は何物にも代えがたい。まず 1 台、ジャンクで組んでみることを強く勧める。