🖥️ ジャンクで作るLLMサーバー大作戦

ジャンク中古パーツで推論専用サーバーを組む — テキスト特化で始めて拡張する 2026年版

🎯 ミッション: ジャンクで組むローカルLLM推論サーバー

推論専用なら GPU は不要

✅ 推論専用の利点

・GPUメモリ（VRAM）が一切不要
・CPU + 大容量 DDR4 ECC で十分
・DDR4 ECC RDIMM は中古で激安（32GB ¥4,000〜）
・学習しないので 24 時間回す必要なし
・スリープ運用で電気代を 1/10 以下に削れる

💡 拡張計画の基本方針

・まずテキスト特化サーバーを 1 台組む
・後から画像生成サーバー（GPU付き）を追加
・Raspberry Pi 1 台で全サーバーの WoL 管理
・サーバーが増えるほど Raspi の価値が上がる

ジャンクの最大の武器は「同じ予算で買えるメモリ容量が新品の 3〜5 倍になること」。 ECC RDIMM の中古相場は一般消費者向けの DDR4 より格段に安い。 Xeon + ECC RAM で 128GB を ¥20,000 以下で組める。これが全ての出発点だ。

3ティア早見表

ティア	対象モデル	ジャンク構成	ジャンク総額	推論速度	スリープ月額
🟢 Tier 1	70B（Llama 3.3 70B等）	中古ワークステーション + 128GB DDR4	¥43,000〜63,000	5〜8 tok/s	¥65/月
🟡 Tier 2	120B（Command R+ 104B等）	中古 EPYC + 256GB DDR4 ECC	¥108,000〜168,000	4〜7 tok/s	¥104/月
🔴 Tier 3	512B+（DeepSeek V3 671B等）	中古2〜4ソケットサーバー + 512GB〜3TB	¥96,000〜274,000	2〜4 tok/s	¥140/月

💤 スリープ運用を知っているかどうかで月額が 10〜20 倍変わる

Raspberry Pi 5（5W）をウェイクアップコントローラーにすることで、LLMサーバーをアイドル時にスリープさせられる。 Tier 3 ジャンクでもスリープ運用なら月 ¥140。24 時間稼働なら月 ¥3,888。このページでは全ティアにスリープ戦略を組み込んで設計する。

🟢 Tier 1: 70B モデル（ジャンク総額 ¥43,000〜63,000）

Llama 3.3 70B・Qwen 2.5 72B クラスのモデルに必要なメモリは Q4_K_M 量子化で約 42GB。中古 Xeon E5-2680v4 + 128GB DDR4 ECC の構成なら余裕で収まる上、 KVキャッシュにも 80GB 以上が使える。ジャンク路線の出発点として最適な構成だ。

ジャンク構成: 中古ワークステーション + 128GB DDR4

役割	製品（中古）	中古価格	調達先	備考
CPU	中古 Intel Xeon E5-2680 v4 (14C/28T, 2.4GHz)	¥3,000〜5,000	ヤフオク / メルカリ	中古最安クラス。DDR4対応、LGA2011-3
マザーボード	中古 Supermicro X10SRA（LGA2011-3）	¥8,000〜15,000	eBay / じゃんぱら	ECC RDIMM対応。ATX。8スロット
メモリ	DDR4 ECC RDIMM 16GB × 8枚 = 128GB	¥12,000〜20,000	eBay / ServerPartDeals	Samsung/Micron推奨。32GB版なら¥5,000/枚
ストレージ	中古 NVMe SSD 1TB（WD Blue等）	¥5,000〜8,000	じゃんぱら / メルカリ	モデルファイル置き場。Llama3.3 70Bで42GB
電源	新品 ATX 650W 80PLUS Bronze	¥6,000〜8,000	Amazon	PSUのみ新品必須。中古PSUは火災リスク
ケース	中古ミドルタワー ATX（Antec P100等）	¥2,000〜4,000	ハードオフ / ヤフオク	ATX対応ならなんでもOK
OS	Ubuntu 24.04 LTS + Ollama	無料	ubuntu.com / ollama.com	llama.cppのAVX2最適化が自動適用される

※ ThinkStation P520（Xeon W-2145 + 128GB DDR4）の完成品がヤフオクに ¥30,000〜50,000 で出ることがある。自作より簡単で同等以上の性能。じゃんぱらで ¥35,000 程度の実績あり。

項目	値
総額（最安）	¥36,000〜
総額（標準）	¥43,000〜63,000
必要メモリ	40〜50GB（Q4_K_M量子化）
128GBの余裕	78〜88GB残り → KVキャッシュ十分
アイドル消費電力	約55〜80W（Xeon E5系）
スリープ時消費電力	1〜3W（S3スリープ）
推論速度（目安）	5〜8 tok/s（Llama 3.3 70B Q4_K_M）
調達難易度	★★☆☆☆ 初心者でも可

動作モデル一覧（128GB 構成）

モデル	量子化	必要メモリ	推論速度（目安）	128GB 適合
Llama 3.3 70B	Q4_K_M	42GB	5〜8 tok/s	✅ 余裕
Qwen 2.5 72B	Q4_K_M	43GB	5〜7 tok/s	✅ 余裕
Llama 3.1 70B	Q5_K_M	51GB	4〜6 tok/s	✅ KVキャッシュ注意
Gemma 2 27B	Q8_0	29GB	10〜14 tok/s	✅ 高速
Mixtral 8x7B	Q5_K	32GB	8〜11 tok/s	✅ MoEで速い

セットアップ手順（Ubuntu 24.04 + Ollama）

# 1. Ubuntu 24.04 LTS をインストール後、SSH 接続

ssh user@llm-server.local

# 2. Ollama をインストール（公式スクリプト）

curl -fsSL https://ollama.com/install.sh | sh

# 3. モデルをダウンロード（Llama 3.3 70B、約 42GB）

ollama pull llama3.3:70b-instruct-q4_K_M

# 4. API サーバーとして起動（LAN からアクセス可能に）

OLLAMA_HOST=0.0.0.0 ollama serve

# 5. systemd で自動起動（スリープ復帰後も自動起動）

sudo systemctl enable ollama

sudo systemctl start ollama

# 6. Open WebUI（ブラウザ UI を追加したい場合）

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \

-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \

ghcr.io/open-webui/open-webui:main

NUC 構成（ジャンクが面倒な人向けの別枠選択肢）

項目	内容
製品名	ASUS NUC 14 Pro AI（Ryzen AI Max+ 395）
メモリ	128GB LPDDR5X（オンボード統合）
価格	¥150,000〜180,000（新品）/ $1,100〜$1,400（eBay中古）
アイドル消費電力	18W（実測）
推論速度	12 tok/s（Llama 3.3 70B Q4_K_M）
向いている人	静音・省電力重視。自作が面倒。ジャンクよりも完成品がいい人
ジャンクとの差	速い・静か・省電力。でも価格はジャンクの3〜4倍

NUC はジャンク路線ではなく「完成品の購入」。速い・静か・省電力だが価格はジャンクの 3〜4 倍。本ページでは参考情報として掲載する。

✅ Tier 1 の結論

個人用途・小規模 API サーバーとして最適。ジャンク構成なら ¥50,000 以下で 70B クラスを動かせる。スリープ運用と組み合わせれば月 ¥65 の電気代で済む。「まず 1 台ジャンクで試す」なら Tier 1 から始めるのが正解。

🟡 Tier 2: 120B モデル（ジャンク総額 ¥108,000〜168,000）

Command R+ 104B・Mixtral 8x22B・Llama 4 Maverick クラスは Q4 量子化で 60〜80GB が必要になる。 128GB 構成は KVキャッシュが圧迫されてきつい。256GB があれば余裕を持って動かせる。ここがジャンク路線の真価で、ECC RDIMM 32GB が ¥4,000〜7,000 で買えるため、 256GB の構成でも ¥30,000〜60,000 のメモリ代で済む。

ジャンク構成: 中古 EPYC サーバー + 256GB DDR4 ECC

役割	製品（中古）	中古価格	調達先	備考
CPU	中古 AMD EPYC 7302P (16C/32T, 3.0GHz)	¥15,000〜25,000	eBay / ServerPartDeals	シングルソケット EPYC。高メモリ帯域
マザーボード	中古 Supermicro H12SSL-i（SP3ソケット）	¥30,000〜50,000	eBay / AliExpress	16スロット DDR4 ECC RDIMM。最大2TB対応
メモリ	DDR4 ECC RDIMM 32GB × 8枚 = 256GB	¥32,000〜56,000	eBay / ServerPartDeals	32GB/枚が¥4,000〜7,000。Server系は激安
ストレージ	中古 NVMe SSD 2TB	¥8,000〜12,000	じゃんぱら / メルカリ	120BモデルはQ4で60GB+必要
電源	新品 ATX 850W 80PLUS Gold（Seasonic等）	¥12,000〜15,000	Amazon	EPYC系は電力消費が大きい。新品必須
ケース	中古フルタワー（E-ATX対応）	¥3,000〜6,000	ヤフオク	SupermicroマザーはE-ATXサイズのことも
OS	Ubuntu 24.04 LTS + Ollama / llama.cpp	無料	—	NUMA対応オプションでEPYCの帯域を最大活用

※ Dell PowerEdge T440（Xeon Silver 4216 ×2, 256GB DDR4 ECC）の完成品がヤフオクに ¥80,000〜120,000 で出ることがある。タワー型なので騒音も比較的控えめで住宅でも使いやすい。

項目	値
総額（最安）	¥100,000〜
総額（標準）	¥108,000〜168,000
必要メモリ（Command R+ 104B Q4）	62GB → 256GBに余裕で収まる
必要メモリ（Mixtral 8x22B Q3）	65GB → ✅
アイドル消費電力	約80〜120W（EPYC系シングルソケット）
スリープ時消費電力	3〜5W
推論速度（目安）	4〜7 tok/s（Command R+ 104B Q4）
調達難易度	★★★☆☆ eBay英語対応が必要

なぜ 192〜256GB が必要か（KVキャッシュ問題）

⚠️ 128GB では長文入力で OOM になる

Command R+ 104B を Q3_K_M（48GB）で動かすとモデルウェイトに 48GB を使う。残り 80GB が KVキャッシュに使えるが、CTX 8192 以上の長い会話では OOM で落ちることがある。 256GB あれば KVキャッシュに 190GB+ 使えるため、CTX 32768 でも余裕。

# Ollama の Modelfile で CTX 長を制限（128GB の緊急対処）

FROM command-r-plus:104b-q3_K_M

PARAMETER num_ctx 2048

PARAMETER num_gpu 0

動作モデル一覧（256GB 構成）

モデル	量子化	必要メモリ	推論速度（目安）	256GB 適合
Command R+ 104B	Q4_K_M	62GB	4〜7 tok/s	256GB: ✅ 余裕
Command R+ 104B	Q3_K_M	48GB	5〜8 tok/s	256GB: ✅ KVキャッシュ潤沢
Mixtral 8x22B	Q4_K	75GB	4〜6 tok/s	256GB: ✅
Mixtral 8x22B	Q3_K	58GB	5〜7 tok/s	256GB: ✅
Qwen 2.5 72B	Q8_0	78GB	5〜8 tok/s	256GB: ✅ 高品質
Llama 4 Maverick 17B×128E	Q4_K_M	70GB〜	4〜6 tok/s	256GB: ✅ MoE注意

豆知識: Mac Studio M2 Ultra 192GB という選択肢

Mac Studio M2 Ultra 192GB（中古 ¥350,000〜）は省電力（アイドル 24W）・静音・高速（14 tok/s）の三拍子が揃う。ただしジャンク路線ではなく「完成品の高額購入」なので本ページでは豆知識として掲載する。同額のジャンク予算なら 256GB を余裕で組めるため、容量優先なら EPYC 構成の方が合理的。

✅ Tier 2 の結論

EPYC ジャンク + 256GB 構成なら ¥100,000〜170,000 で 120B クラスを快適に動かせる。 KVキャッシュ問題も解消され、長文処理が可能。スリープ運用で月 ¥104 の電気代。「70B より賢いモデルを完全ローカルで使いたい」用途への現実的な最適解。

🔴 Tier 3: 512B+ 超大型モデル（ジャンク総額 ¥96,000〜274,000）

DeepSeek V3（671B MoE）・Kimi K2（1T MoE）・Llama 3.1 405B を完全ローカルで動かすには最低でも 180〜350GB のメモリが必要。MoE モデルは量子化で大幅に圧縮できるが、それでも 500GB+ 環境が安心ライン。2つのジャンクアプローチを紹介する。

構成A: 一般向け — 中古 2 ソケットラックサーバー

役割	製品（中古）	価格	調達先	備考
サーバー本体	中古 Dell PowerEdge R740（2×Xeon Gold 6248, 768GB DDR4）	¥150,000〜250,000	eBay / Yahoo!オークション	768GBメモリ込みの完成品が狙い目
または	中古 HP ProLiant DL380 Gen10（2×Xeon Gold, 512GB DDR4）	¥80,000〜150,000	eBay / Bargain Hardware	流通量多く価格安定。512GBで DeepSeek V3 Q2が動く
ストレージ追加	中古 NVMe SSD 2TB × 2本	¥16,000〜24,000	じゃんぱら / メルカリ	モデルファイルは300〜400GB+になる
OS	Ubuntu 24.04 + llama.cpp（AVX-512最適化ビルド）	無料	—	Xeon はAVX-512対応なのでllama.cppをAVX-512でビルドすること

構成A 総額: ¥96,000〜274,000。768GB 込みの Dell R740 完成品が狙い目。DeepSeek V3 Q2_K（約 180GB）が動く。

構成B: 業務用中古 — 4 ソケットサーバーで 3TB を目指す

役割	製品（中古）	価格	調達先	備考
サーバー本体	中古 Dell PowerEdge R940（4×Xeon Platinum 8176, 3TB DDR4）	¥250,000〜400,000	eBay / ServerMonkey	4ソケット。メモリ3TB対応。DeepSeek V3 Q4が動く
または	中古 HP DL580 G10（4×Xeon Gold 6154, 6TB DDR4）	¥200,000〜350,000	eBay / Bargain Hardware	6TB対応の怪物。フルQ8でDeepSeekが動く理論値
ストレージ追加	中古 NVMe SSD 4TB × 2本	¥40,000〜60,000	じゃんぱら	4ソケットサーバーはU.2 SSDが多い。注意
OS	Ubuntu 24.04 + llama.cpp + NUMA最適化	無料	—	4ソケットはNUMAアーキテクチャ。numactl必須

構成B 総額: ¥240,000〜460,000。4 ソケットは NUMA 最適化必須。numactl で CPU-NUMA 境界をまたがないようにすること。

項目	値
構成A（2ソケット中古）	総額 ¥96,000〜274,000
構成B（4ソケット中古）	総額 ¥240,000〜460,000
アイドル消費電力（構成A）	120〜180W（2ソケットXeon Gold）
アイドル消費電力（構成B）	250〜400W（4ソケット）
騒音	65〜80dB。住宅では別室必須
重量	25〜40kg。床の耐荷重を確認
推論速度（DeepSeek V3 Q2）	2〜4 tok/s。バッチ処理向け
調達難易度	★★★★☆ eBay + 英語サポート対応必要

量子化レベルと必要メモリ（DeepSeek V3 671B の場合）

量子化	671B 必要メモリ	推論速度	品質	必要ハード	判定
Q2_K	約170〜180GB	2〜4 tok/s	△ 品質低下あり	512GBで余裕	動かすだけなら現実的
Q3_K_M	約230〜250GB	1〜3 tok/s	◯ 実用レベル	512GBで入る	現実的な最良バランス
Q4_K_M	約310〜340GB	0.5〜1 tok/s	◎ 高品質	512GBでギリギリ	768GBあれば安心
Q5_K_M	約390〜420GB	<0.5 tok/s	◎◎ 最高品質	1TB以上必要	現時点では非現実的

⚠️ Tier 3 の正直な評価

DeepSeek V3 671B Q2_K で 2〜4 tok/s が現実。チャットで使うには遅い。ただしバッチ処理・並列生成・非同期 API として使うなら許容範囲。「完全ローカルで GPT-4 相当を動かした」という達成感と、社内データを外に出さないプライバシー要件があるなら十分に意義がある。コスト優先なら Tier 1 + OpenRouter の組み合わせの方が現実的。

🌍 世界と日本のジャンク LLM ビルダーたち

Reddit r/LocalLLaMA・Qiita・Zenn・V2EX・Habr などの海外・日本コミュニティには、実際にジャンクパーツで LLM サーバーを組んだ報告が数多くある。「本当に動くのか？」の答えは「動く、世界中で動いている」だ。

Reddit r/LocalLLaMA u/Elegant_Vast 総費用: $400（eBay送料込み）

ハードウェア	Dell PowerEdge R630（2×E5-2680v4, 384GB DDR4）
動かしたモデル	Llama 3.1 70B Q4_K_M
推論速度	6 tok/s

「70Bが$400で動く。ジャンクサーバー最高。ファンがうるさくて妻に怒られた」

Reddit r/LocalLLaMA u/JosephThrane 総費用: $1,200（eBay）

ハードウェア	HP DL380 Gen9（2×E5-2699v4, 512GB DDR4）
動かしたモデル	DeepSeek V2 236B Q2_K
推論速度	2 tok/s

「遅いが全ローカルで236Bが動く感動は別格。バッチ処理で使ってる」

Reddit r/LocalLLaMA u/Reasonable_Mess 総費用: $600 × 2台

ハードウェア	自作 Supermicro X10SRA × 2台（各128GB DDR4, Xeon E5-2680v4）
動かしたモデル	Mixtral 8x7B Q5_K
推論速度	11 tok/s

「2台並列でllama.cpp splits。合計256GBのダブルサーバー構成」

Qiita / Zenn（日本語コミュニティ） @kazu_hiki（Qiita）総費用: ¥35,000

ハードウェア	中古 ThinkStation P520（Xeon W-2145, 128GB DDR4）— ¥35,000
動かしたモデル	Llama 3 70B Q4_K_M
推論速度	7 tok/s

「じゃんぱらで購入。Ollamaを入れるだけで即動いた。設定ほぼ不要」

Qiita（日本） @mochi_LLM 総費用: ¥55,000

ハードウェア	中古 Dell T5820（Xeon W-2145, 256GB DDR4）— ヤフオク ¥55,000
動かしたモデル	Command R+ 104B Q3_K_M
推論速度	5 tok/s

「256GBで104B Q3が動く。スリープ + Raspiで月¥120の電気代」

V2EX（中国コミュニティ） ghpvc_user 総費用: $800相当

ハードウェア	中古 Dell PowerEdge R730xd（2×E5-2690v4, 512GB DDR4）— ¥60,000相当
動かしたモデル	DeepSeek V3 671B Q2_K
推論速度	3 tok/s

「671B Q2_Kが512GBに入る。遅いが動く。中国ではeBay代わりに闲鱼を使う」

Habr（ロシア Tech コミュニティ） HabrUser_mllab 総費用: $1,500

ハードウェア	Supermicro H11DSi（2×EPYC 7351, 512GB DDR4 ECC）— eBay $1,500
動かしたモデル	Llama 3.1 405B Q2_K
推論速度	1.5 tok/s

「EPYCの帯域でThreadripperより速い。405B Q2_Kが512GBに収まる」

#ローカルLLM（X/Twitter日本） @LocalLLM_jp（匿名）総費用: ¥40,000

ハードウェア	中古 ASUS Z10PE-D8 WS（2×E5-2699v4, 256GB DDR4）— ヤフオク ¥40,000
動かしたモデル	Qwen 2.5 72B Q8_0
推論速度	6 tok/s

「Q8_0の70Bが256GBに収まる。品質最高。Ollamaが公式サポートしてて楽」

💡 コミュニティから学べること

・eBay の中古 Dell R730/R740 は「ジャンク LLM の定番」として世界中で使われている
・タワー型ワークステーション（ThinkStation・Precision）はラックより静かで住宅向き
・日本では「じゃんぱら」「ヤフオク」を使った報告が Qiita に増えてきている
・中国では eBay の代わりに「闲鱼（シェンユー）」という中古 C2C サイトが使われる
・r/LocalLLaMA の wiki に「hardware guide」があり、実測速度の比較が充実している

💤 スリープ戦略: Raspberry Pi で爆速ウェイクアップ

LLMサーバーを 24 時間稼働させ続ける必要はない。アイドル時にスリープさせ、リクエストが来たときだけ起こせばいい。 Raspberry Pi 5（消費電力 2〜5W）を常時稼働のウェイクアップコントローラーとして使うことで、ジャンクサーバーの 80W+ アイドル電力をほぼゼロにできる。

電力比較（24h 稼働 vs スリープ運用）

構成	アイドル電力	スリープ電力	月額（24h 稼働）	月額（スリープ 4h/日）
Tier 1 ジャンク（Xeon E5-2680v4, 128GB）	55〜80W	2W	約¥1,490/月	約¥65/月
Tier 1 NUC（Ryzen AI Max+ 395, 128GB）	18W	1.5W	約¥352/月	約¥29/月
Tier 2 ジャンク（EPYC 7302P, 256GB）	80〜120W	4W	約¥2,160/月	約¥104/月
Tier 3 ジャンク（Dell R740 2ソケット, 768GB）	150〜200W	5W	約¥3,888/月	約¥140/月
Tier 3 大型（Dell R940 4ソケット, 3TB）	300〜400W	10W	約¥8,100/月	約¥232/月

※ 電気代単価 27 円/kWh で計算。スリープ運用は「スリープ電力 × 20h + アイドル電力 × 4h」で算出。

Raspberry Pi ウェイクアップ構成図

# ネットワーク構成

[PC/スマホ] ──→ [Raspberry Pi 5: 192.168.1.10] ──→ [LLM サーバー: 192.168.1.20]

# ↑ 常時稼働 (5W) ↑ Wake-on-LAN で起動

# Raspberry Pi がプロキシ兼 WoL コントローラー

# 処理フロー

① クライアント → raspi:5000/chat にリクエスト送信

② raspi → WoL パケットを LLM サーバーの MAC へ送信

③ LLM サーバー起動（15〜30 秒）→ Ollama 自動起動

④ raspi → LLM サーバー(11434)にリクエスト転送

⑤ アイドル 10 分後 → LLM サーバー自動スリープ

LLM サーバー側: Wake-on-LAN の有効化

# BIOS/UEFI で Wake-on-LAN を有効化（マザーボード設定）

# → 「Power Management」→「Wake on LAN」を Enable

# Ubuntu で WoL を有効化（ethtool）

sudo apt install ethtool

sudo ethtool -s enp3s0 wol g

# enp3s0 は NIC のインターフェース名（ip a で確認）

# 再起動後も保持するため systemd サービスに登録

sudo tee /etc/systemd/system/wol.service <<EOF

[Unit]

Description=Enable Wake-on-LAN

After=network.target

[Service]

Type=oneshot

ExecStart=/sbin/ethtool -s enp3s0 wol g

[Install]

WantedBy=multi-user.target

EOF

sudo systemctl enable wol

Raspberry Pi 側: Flask ウェイクアップサーバー

# Raspberry Pi に必要なパッケージをインストール

pip3 install flask wakeonlan requests

# wakeup_proxy.py — ウェイクアップ + プロキシサーバー

from flask import Flask, request, Response

import wakeonlan, requests, time

app = Flask(__name__)

LLM_MAC = "aa:bb:cc:dd:ee:ff" # LLM サーバーの MAC アドレス

LLM_IP = "192.168.1.20"

OLLAMA_PORT = 11434

def wake_and_wait():

wakeonlan.send_magic_packet(LLM_MAC)

for _ in range(30): # 最大 30 秒待機

try:

r = requests.get(f"http://{LLM_IP}:{OLLAMA_PORT}/", timeout=1)

if r.status_code == 200: return True

except: time.sleep(1)

return False

@app.route("/api/<path:path>", methods=["GET","POST"])

def proxy(path):

wake_and_wait()

resp = requests.request(

method=request.method,

url=f"http://{LLM_IP}:{OLLAMA_PORT}/{path}",

data=request.get_data(), headers=request.headers, stream=True)

return Response(resp.iter_content(chunk_size=4096), status=resp.status_code)

if __name__ == "__main__":

app.run(host="0.0.0.0", port=5000)

LLM サーバー側: 自動スリープ（アイドル 10 分）

# auto_sleep.sh — Ollama アイドル監視→自動スリープ

#!/bin/bash

IDLE_THRESHOLD=600 # 10 分

LAST_REQUEST=$(date +%s)

while true; do

ACTIVE=$(curl -s http://localhost:11434/api/ps | python3 -c \

"import sys,json; d=json.load(sys.stdin); print(len(d.get('models',[])))")

if [ "$ACTIVE" = "0" ]; then

IDLE=$(($(date +%s) - LAST_REQUEST))

if [ "$IDLE" -ge "$IDLE_THRESHOLD" ]; then

echo "Idle for ${IDLE}s — suspending..."

systemctl suspend

else

LAST_REQUEST=$(date +%s)

sleep 60

done

# cron で起動（@reboot）

@reboot /home/user/auto_sleep.sh &

ステップ	処理	デバイス	詳細
①	クライアントからAPIリクエスト	PC/スマホ	http://raspi-local:5000/api/chat に送信
②	Raspberry Piがリクエストを受信	Raspberry Pi 5	FlaskサーバーがWoLパケットをブロードキャスト
③	Wake-on-LAN でメインサーバー起動	LLMサーバー	etherwake <MACアドレス> 実行 / 起動待機 15〜30秒
④	メインサーバーがOllamaを起動	LLMサーバー	systemd でOllamaが自動起動（起動後30秒でready）
⑤	リクエストをLLMサーバーに転送	Raspberry Pi 5	プロキシ転送 or クライアントに「ready」を返す
⑥	自動スリープ（アイドル10分）	LLMサーバー	cronで systemctl suspend 実行

スリープ復帰時間

15〜45 秒

BIOS 設定次第。ジャンクサーバーは 30〜45 秒が多い

Raspberry Pi 消費電力

2〜5W

24h 稼働でも月 ¥39〜¥97

Tier 1 ジャンク月額

¥65 + ¥58

LLM サーバー ¥65 + Raspi ¥58 = 合計 ¥123/月

📈 拡張計画: テキスト→画像→マルチモーダル

最初からマルチモーダルを目指すと挫折する。まずテキスト特化サーバーで基盤を作り、 Raspberry Pi の WoL 管理システムを整えてから段階的に拡張していく。各サーバーは独立して電源管理できるので、使う時だけ起こす運用が可能。

フェーズ	サーバー役割	ハードウェア	主なモデル	消費電力	WoL 管理
Phase 1（今すぐ）	テキスト特化LLMサーバー	ジャンク Xeon + 128〜256GB DDR4	Llama 3.3 70B / Command R+ 104B	55〜120W	Raspberry Pi でWoL管理
Phase 2（後から追加）	画像生成サーバー（GPU必要）	中古 RTX 3090/4090 + PCで自作	Stable Diffusion 3 / FLUX.1	300〜400W	同じRaspiからWoL起動
Phase 3（さらに後）	音声・動画用サーバー	中古 GPU × 2 + 大容量RAM	Whisper / CosyVoice / LTX-Video	400〜600W	Raspiダッシュボードから制御

ネットワーク構成（Phase 2 以降）

# 3 台構成のネットワーク

[クライアント] ──→ [Raspberry Pi 5（ルーター・WoL 管理）]

├──→ [LLM テキストサーバー: .20（Tier 1-3）]

├──→ [画像生成サーバー: .21（RTX 3090/4090）]

└──→ [音声・動画サーバー: .22（GPU × 2）]

# Raspi が全サーバーへの WoL コントローラー

# 使うサーバーだけ起動 → 使い終わったらスリープ

# 10GbE スイッチ推奨（中古 ¥10,000〜）

# モデルファイルの共有 NAS を置く場合も Raspi 経由で管理可能

💡 画像生成サーバーの注意点

Stable Diffusion 3・FLUX.1 などの画像生成は GPU（VRAM 12GB+）が必要。テキスト特化サーバーとは別ハードになる。中古 RTX 3090（24GB VRAM、¥80,000〜）が現実的な選択肢。画像生成サーバーだけは「ジャンク CPU 推論」では対応不可なので注意。

💰 月額コストシミュレーション

電気代 27 円/kWh で計算。スリープ運用は 1 日 4 時間使用を想定。

Tier 1 ジャンク（Xeon, 128GB）

初期費用

¥43,000〜63,000

電気代（24h 稼働）

約¥1,490/月（70W × 24h × 27円）

電気代（スリープ運用）

約¥65/月（スリープ2W + 稼働4h/日）

1 年目総コスト（24h）

¥60,880〜80,880

1 年目総コスト（スリープ）

¥43,780〜63,780

2 年目以降の年間コスト（スリープ）

¥780

💡 月5,000円分のAPI利用なら1年以内で回収

Tier 1 NUC（Ryzen AI Max+, 128GB）

初期費用

¥150,000〜180,000

電気代（24h 稼働）

約¥352/月（18W × 24h）

電気代（スリープ運用）

約¥29/月

1 年目総コスト（24h）

¥154,224〜184,224

1 年目総コスト（スリープ）

¥150,348〜180,348

2 年目以降の年間コスト（スリープ）

¥348

💡 月1万円分のAPI利用なら15〜18ヶ月で回収

Tier 2 ジャンク（EPYC, 256GB）

初期費用

¥108,000〜168,000

電気代（24h 稼働）

約¥2,160/月（100W × 24h）

電気代（スリープ運用）

約¥104/月

1 年目総コスト（24h）

¥133,920〜193,920

1 年目総コスト（スリープ）

¥109,248〜169,248

2 年目以降の年間コスト（スリープ）

¥1,248

💡 月1万円分のAPI利用なら1年以内で回収

Tier 3 ジャンク（Dell R740, 768GB）

初期費用

¥166,000〜274,000

電気代（24h 稼働）

約¥3,888/月（180W × 24h）

電気代（スリープ運用）

約¥140/月

1 年目総コスト（24h）

¥212,656〜320,656

1 年目総コスト（スリープ）

¥167,680〜275,680

2 年目以降の年間コスト（スリープ）

¥1,680

💡 月3万円分のAPI利用（スリープ運用）なら1年以内

クラウド API との比較

サービス	1M トークン単価	無料枠	プライバシー	制限
OpenRouter（Llama 3.3 70B）	¥70〜100	なし	外部送信	なし
Claude API（Sonnet 4.6）	¥450〜600	なし	外部送信	なし
Groq API（Llama 3.3 70B）	¥90	14,400req/日	外部送信	レート制限あり
Tier 1 ジャンク（スリープ）	電気代換算 ¥3〜10	無限	完全ローカル	なし
Tier 3 ジャンク（スリープ）	電気代換算 ¥5〜20	無限	完全ローカル	なし（ただし遅い）

💡 損益分岐点まとめ

月に 1 万トークン程度しか使わないならクラウド API の方が安い。月に 500 万〜1000 万トークン以上使うヘビーユーザー、または社内データを外に出せない用途ならローカルの優位性が出てくる。スリープ運用を組み合わせると 2 年目以降のランニングコストがほぼゼロになるため、長期保有するほど有利になる。

🔧 中古パーツ調達ガイド

調達先の使い分け

調達先	狙うパーツ	メリット	デメリット	こんな人向け
じゃんぱら	NVMe・RAM・ミニPC	動作確認済み・保証あり・日本語サポート	価格はeBayより高め	初心者・リスクを減らしたい人
eBay	中古サーバー・EPYC CPU・ECC RAM	世界最大の中古市場。PayPal保護あり	英語・輸送費・関税（8%）	海外調達・希少パーツ
Yahoo!オークション	ジャンクPC・ワークステーション・サーバー	安い。日本語。国内送料のみ	動作保証なし。返品難しい	玄人・ジャンクが許容できる人
メルカリ	NVMe・RAM・小パーツ	個人間で安い。交渉可能	動作確認が不十分なことも	ストレージ・メモリ調達
ServerPartDeals.com	EPYC用ECC RAM・新品Xeon	価格が明確。大量購入に強い	輸送費・関税、英語対応	ECC RAMを大量購入したい人
ハードオフ	ジャンクケース・電源・古いPC	実物確認可能。超安い	動作保証なし。店舗まで行く必要	ケース・電源の激安調達

中古サーバー購入時の注意点

注意点	詳細と対策
騒音（最重要）	2Uラックサーバーは7,000RPMファン搭載。アイドル時でも65〜80dB。住宅では別室必須。タワー型ワークステーション（ThinkStation・Precision等）の方が静音性は高い
電源劣化	中古サーバーの電源は5〜10年動いてきたもの。PSUのみ新品交換を推奨（Seasonic・Corsair等）。中古PSUは火災リスクを許容してはいけない
熱排気	サーバーは前→後ろに強制排気。机の上には置けない。ラック or 棚の設計が必要。排気口を壁に向けない
IPMI/BMC設定	Dell iDRAC / HP iLO のIPMIを有効化しておくとリモート電源管理が楽になる。WoLの代替手段にもなる
重量	2Uサーバーは20〜35kgある。フロア耐荷重と搬入経路を必ず確認すること
DDR4 ECC RDIMM	サーバー向けメモリ。スロット数 × 容量 = 合計メモリ上限。例: 16スロット × 32GB = 512GBが上限。UDIMMは使えないので注意
関税・輸送費	eBayで中古サーバーを輸入する場合、輸送費2〜5万円＋関税8%が追加コスト。国内のヤフオクで探す方が安いことも多い

推論専用ならではの判断基準

判断 1

GPU は不要。CPU 推論（llama.cpp / Ollama）で十分。GPU 購入費がまるまる浮く

判断 2

メモリは多ければ多いほどいい。ECC RDIMM は中古相場が安いので積めるだけ積む

判断 3

CPU コア数より「メモリスロット数」「メモリ帯域」で選ぶ。EPYC は帯域が広いので有利

必須

PSU（電源）だけは必ず新品を使う。中古 PSU の火災リスクは推論サーバーでも同じ

重要

スリープ戦略を必ず組み込む。Raspberry Pi 5（¥15,000）の投資で電気代が 1/10〜1/20 になる

補足

ラックサーバーより「タワー型ワークステーション（ThinkStation・Precision・Z シリーズ等）」の方が静かで住宅向き

🤖 Claude の総評

— Claude Sonnet 4.6 より

このページを読んで実際に動かした人への正直な一言から始めよう: 「ジャンクで LLM サーバーを組む最大のメリットは、同じ予算でメモリを 3〜5 倍積めることだ。」 DDR4 ECC RDIMM 32GB が ¥4,000〜7,000 で買える現在、 ¥50,000 あれば 128GB、¥100,000 あれば 256GB を組める。新品のコンシューマ向けパーツでは到底できない構成が可能になる。

推論専用に絞った判断は正しい。学習・ファインチューニングを諦めることで、 GPU 購入費（RTX 4090 で ¥30〜40 万）がまるまる浮く。 CPU 推論（llama.cpp・Ollama）は確かに GPU に比べると遅いが、個人用途や小規模チームのバッチ処理には十分な速度だ。しかも ECC メモリは一般 DDR4 より信頼性が高く、24 時間連続稼働に向いている。

Tier 1 ジャンク構成（¥50,000 前後）は、初心者の最初の 1 台として最適解に近い。中古 ThinkStation P520 や Dell T5820 はヤフオクやじゃんぱらで完成品が手に入り、 Ubuntu + Ollama を入れるだけで Llama 3.3 70B が動く。設定のハードルは意外と低い。

スリープ戦略は「知っているかどうかで月額が 20 倍変わる」と書いたが、誇張ではない。 Tier 1 ジャンク（アイドル 70W）でも、スリープ運用なら月 ¥65。これを知らずに 24h 稼働させると月 ¥1,490。 Raspberry Pi 5 への ¥15,000 投資は、1〜2 ヶ月で完全に回収できる計算だ。

Tier 3（512B+）については正直に言う。 2〜4 tok/s ではリアルタイムチャットには遅すぎる。だが「社内データを外に出せない」「バッチで大量の文書を処理したい」という業務要件があれば、 ¥100,000〜270,000 という初期費用は決して高くない。世界のビルダーたちが実際に動かしている事実は、十分な励みになるはずだ。

最後に: ジャンク路線の醍醐味は「定価を払わない哲学」だけではない。「自分でシステムを設計・制御できる自由」にある。クラウド API はモデルのアップデートで挙動が変わり、料金体系も変わり、サービス終了もある。完全ローカルは遅くて不便な面もあるが、「自分のモデルが自分のハードで動いている」という確実性は何物にも代えがたい。まず 1 台、ジャンクで組んでみることを強く勧める。