さとまたwiki

🖥️ ジャンクで作るLLMサーバー大作戦

ジャンク中古パーツで推論専用サーバーを組む — テキスト特化で始めて拡張する 2026年版

🎯 ミッション: ジャンクで組むローカルLLM推論サーバー

推論専用なら GPU は不要

✅ 推論専用の利点

  • ・GPUメモリ(VRAM)が一切不要
  • ・CPU + 大容量 DDR4 ECC で十分
  • ・DDR4 ECC RDIMM は中古で激安(32GB ¥4,000〜)
  • ・学習しないので 24 時間回す必要なし
  • ・スリープ運用で電気代を 1/10 以下に削れる

💡 拡張計画の基本方針

  • ・まずテキスト特化サーバーを 1 台組む
  • ・後から画像生成サーバー(GPU付き)を追加
  • ・Raspberry Pi 1 台で全サーバーの WoL 管理
  • ・サーバーが増えるほど Raspi の価値が上がる

ジャンクの最大の武器は「同じ予算で買えるメモリ容量が新品の 3〜5 倍になること」。 ECC RDIMM の中古相場は一般消費者向けの DDR4 より格段に安い。 Xeon + ECC RAM で 128GB を ¥20,000 以下で組める。これが全ての出発点だ。

3ティア早見表

ティア対象モデルジャンク構成ジャンク総額推論速度スリープ月額
🟢 Tier 170B(Llama 3.3 70B等)中古ワークステーション + 128GB DDR4¥43,000〜63,0005〜8 tok/s¥65/月
🟡 Tier 2120B(Command R+ 104B等)中古 EPYC + 256GB DDR4 ECC¥108,000〜168,0004〜7 tok/s¥104/月
🔴 Tier 3512B+(DeepSeek V3 671B等)中古2〜4ソケットサーバー + 512GB〜3TB¥96,000〜274,0002〜4 tok/s¥140/月

💤 スリープ運用を知っているかどうかで月額が 10〜20 倍変わる

Raspberry Pi 5(5W)をウェイクアップコントローラーにすることで、LLMサーバーをアイドル時にスリープさせられる。 Tier 3 ジャンクでもスリープ運用なら月 ¥140。24 時間稼働なら月 ¥3,888。 このページでは全ティアにスリープ戦略を組み込んで設計する。

🟢 Tier 1: 70B モデル(ジャンク総額 ¥43,000〜63,000)

Llama 3.3 70B・Qwen 2.5 72B クラスのモデルに必要なメモリは Q4_K_M 量子化で約 42GB。 中古 Xeon E5-2680v4 + 128GB DDR4 ECC の構成なら余裕で収まる上、 KVキャッシュにも 80GB 以上が使える。ジャンク路線の出発点として最適な構成だ。

ジャンク構成: 中古ワークステーション + 128GB DDR4

役割製品(中古)中古価格調達先備考
CPU中古 Intel Xeon E5-2680 v4 (14C/28T, 2.4GHz)¥3,000〜5,000ヤフオク / メルカリ中古最安クラス。DDR4対応、LGA2011-3
マザーボード中古 Supermicro X10SRA(LGA2011-3)¥8,000〜15,000eBay / じゃんぱらECC RDIMM対応。ATX。8スロット
メモリDDR4 ECC RDIMM 16GB × 8枚 = 128GB¥12,000〜20,000eBay / ServerPartDealsSamsung/Micron推奨。32GB版なら¥5,000/枚
ストレージ中古 NVMe SSD 1TB(WD Blue等)¥5,000〜8,000じゃんぱら / メルカリモデルファイル置き場。Llama3.3 70Bで42GB
電源新品 ATX 650W 80PLUS Bronze¥6,000〜8,000AmazonPSUのみ新品必須。中古PSUは火災リスク
ケース中古ミドルタワー ATX(Antec P100等)¥2,000〜4,000ハードオフ / ヤフオクATX対応ならなんでもOK
OSUbuntu 24.04 LTS + Ollama無料ubuntu.com / ollama.comllama.cppのAVX2最適化が自動適用される

※ ThinkStation P520(Xeon W-2145 + 128GB DDR4)の完成品がヤフオクに ¥30,000〜50,000 で出ることがある。 自作より簡単で同等以上の性能。じゃんぱらで ¥35,000 程度の実績あり。

項目
総額(最安)¥36,000〜
総額(標準)¥43,000〜63,000
必要メモリ40〜50GB(Q4_K_M量子化)
128GBの余裕78〜88GB残り → KVキャッシュ十分
アイドル消費電力約55〜80W(Xeon E5系)
スリープ時消費電力1〜3W(S3スリープ)
推論速度(目安)5〜8 tok/s(Llama 3.3 70B Q4_K_M)
調達難易度★★☆☆☆ 初心者でも可

動作モデル一覧(128GB 構成)

モデル量子化必要メモリ推論速度(目安)128GB 適合
Llama 3.3 70BQ4_K_M42GB5〜8 tok/s✅ 余裕
Qwen 2.5 72BQ4_K_M43GB5〜7 tok/s✅ 余裕
Llama 3.1 70BQ5_K_M51GB4〜6 tok/s✅ KVキャッシュ注意
Gemma 2 27BQ8_029GB10〜14 tok/s✅ 高速
Mixtral 8x7BQ5_K32GB8〜11 tok/s✅ MoEで速い

セットアップ手順(Ubuntu 24.04 + Ollama)

# 1. Ubuntu 24.04 LTS をインストール後、SSH 接続

ssh user@llm-server.local

# 2. Ollama をインストール(公式スクリプト)

curl -fsSL https://ollama.com/install.sh | sh

# 3. モデルをダウンロード(Llama 3.3 70B、約 42GB)

ollama pull llama3.3:70b-instruct-q4_K_M

# 4. API サーバーとして起動(LAN からアクセス可能に)

OLLAMA_HOST=0.0.0.0 ollama serve

# 5. systemd で自動起動(スリープ復帰後も自動起動)

sudo systemctl enable ollama

sudo systemctl start ollama

# 6. Open WebUI(ブラウザ UI を追加したい場合)

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \

-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \

ghcr.io/open-webui/open-webui:main

NUC 構成(ジャンクが面倒な人向けの別枠選択肢)

項目内容
製品名ASUS NUC 14 Pro AI(Ryzen AI Max+ 395)
メモリ128GB LPDDR5X(オンボード統合)
価格¥150,000〜180,000(新品)/ $1,100〜$1,400(eBay中古)
アイドル消費電力18W(実測)
推論速度12 tok/s(Llama 3.3 70B Q4_K_M)
向いている人静音・省電力重視。自作が面倒。ジャンクよりも完成品がいい人
ジャンクとの差速い・静か・省電力。でも価格はジャンクの3〜4倍

NUC はジャンク路線ではなく「完成品の購入」。速い・静か・省電力だが価格はジャンクの 3〜4 倍。本ページでは参考情報として掲載する。

✅ Tier 1 の結論

個人用途・小規模 API サーバーとして最適。ジャンク構成なら ¥50,000 以下で 70B クラスを動かせる。 スリープ運用と組み合わせれば月 ¥65 の電気代で済む。 「まず 1 台ジャンクで試す」なら Tier 1 から始めるのが正解。

🟡 Tier 2: 120B モデル(ジャンク総額 ¥108,000〜168,000)

Command R+ 104B・Mixtral 8x22B・Llama 4 Maverick クラスは Q4 量子化で 60〜80GB が必要になる。 128GB 構成は KVキャッシュが圧迫されてきつい。256GB があれば余裕を持って動かせる。 ここがジャンク路線の真価で、ECC RDIMM 32GB が ¥4,000〜7,000 で買えるため、 256GB の構成でも ¥30,000〜60,000 のメモリ代で済む。

ジャンク構成: 中古 EPYC サーバー + 256GB DDR4 ECC

役割製品(中古)中古価格調達先備考
CPU中古 AMD EPYC 7302P (16C/32T, 3.0GHz)¥15,000〜25,000eBay / ServerPartDealsシングルソケット EPYC。高メモリ帯域
マザーボード中古 Supermicro H12SSL-i(SP3ソケット)¥30,000〜50,000eBay / AliExpress16スロット DDR4 ECC RDIMM。最大2TB対応
メモリDDR4 ECC RDIMM 32GB × 8枚 = 256GB¥32,000〜56,000eBay / ServerPartDeals32GB/枚が¥4,000〜7,000。Server系は激安
ストレージ中古 NVMe SSD 2TB¥8,000〜12,000じゃんぱら / メルカリ120BモデルはQ4で60GB+必要
電源新品 ATX 850W 80PLUS Gold(Seasonic等)¥12,000〜15,000AmazonEPYC系は電力消費が大きい。新品必須
ケース中古フルタワー(E-ATX対応)¥3,000〜6,000ヤフオクSupermicroマザーはE-ATXサイズのことも
OSUbuntu 24.04 LTS + Ollama / llama.cpp無料NUMA対応オプションでEPYCの帯域を最大活用

※ Dell PowerEdge T440(Xeon Silver 4216 ×2, 256GB DDR4 ECC)の完成品がヤフオクに ¥80,000〜120,000 で出ることがある。タワー型なので騒音も比較的控えめで住宅でも使いやすい。

項目
総額(最安)¥100,000〜
総額(標準)¥108,000〜168,000
必要メモリ(Command R+ 104B Q4)62GB → 256GBに余裕で収まる
必要メモリ(Mixtral 8x22B Q3)65GB → ✅
アイドル消費電力約80〜120W(EPYC系シングルソケット)
スリープ時消費電力3〜5W
推論速度(目安)4〜7 tok/s(Command R+ 104B Q4)
調達難易度★★★☆☆ eBay英語対応が必要

なぜ 192〜256GB が必要か(KVキャッシュ問題)

⚠️ 128GB では長文入力で OOM になる

Command R+ 104B を Q3_K_M(48GB)で動かすとモデルウェイトに 48GB を使う。 残り 80GB が KVキャッシュに使えるが、CTX 8192 以上の長い会話では OOM で落ちることがある。 256GB あれば KVキャッシュに 190GB+ 使えるため、CTX 32768 でも余裕。

# Ollama の Modelfile で CTX 長を制限(128GB の緊急対処)

FROM command-r-plus:104b-q3_K_M

PARAMETER num_ctx 2048

PARAMETER num_gpu 0

動作モデル一覧(256GB 構成)

モデル量子化必要メモリ推論速度(目安)256GB 適合
Command R+ 104BQ4_K_M62GB4〜7 tok/s256GB: ✅ 余裕
Command R+ 104BQ3_K_M48GB5〜8 tok/s256GB: ✅ KVキャッシュ潤沢
Mixtral 8x22BQ4_K75GB4〜6 tok/s256GB: ✅
Mixtral 8x22BQ3_K58GB5〜7 tok/s256GB: ✅
Qwen 2.5 72BQ8_078GB5〜8 tok/s256GB: ✅ 高品質
Llama 4 Maverick 17B×128EQ4_K_M70GB〜4〜6 tok/s256GB: ✅ MoE注意

豆知識: Mac Studio M2 Ultra 192GB という選択肢

Mac Studio M2 Ultra 192GB(中古 ¥350,000〜)は省電力(アイドル 24W)・静音・高速(14 tok/s)の三拍子が揃う。 ただしジャンク路線ではなく「完成品の高額購入」なので本ページでは豆知識として掲載する。 同額のジャンク予算なら 256GB を余裕で組めるため、容量優先なら EPYC 構成の方が合理的。

✅ Tier 2 の結論

EPYC ジャンク + 256GB 構成なら ¥100,000〜170,000 で 120B クラスを快適に動かせる。 KVキャッシュ問題も解消され、長文処理が可能。スリープ運用で月 ¥104 の電気代。 「70B より賢いモデルを完全ローカルで使いたい」用途への現実的な最適解。

🔴 Tier 3: 512B+ 超大型モデル(ジャンク総額 ¥96,000〜274,000)

DeepSeek V3(671B MoE)・Kimi K2(1T MoE)・Llama 3.1 405B を完全ローカルで動かすには 最低でも 180〜350GB のメモリが必要。MoE モデルは量子化で大幅に圧縮できるが、 それでも 500GB+ 環境が安心ライン。2つのジャンクアプローチを紹介する。

構成A: 一般向け — 中古 2 ソケットラックサーバー

役割製品(中古)価格調達先備考
サーバー本体中古 Dell PowerEdge R740(2×Xeon Gold 6248, 768GB DDR4)¥150,000〜250,000eBay / Yahoo!オークション768GBメモリ込みの完成品が狙い目
または中古 HP ProLiant DL380 Gen10(2×Xeon Gold, 512GB DDR4)¥80,000〜150,000eBay / Bargain Hardware流通量多く価格安定。512GBで DeepSeek V3 Q2が動く
ストレージ追加中古 NVMe SSD 2TB × 2本¥16,000〜24,000じゃんぱら / メルカリモデルファイルは300〜400GB+になる
OSUbuntu 24.04 + llama.cpp(AVX-512最適化ビルド)無料Xeon はAVX-512対応なのでllama.cppをAVX-512でビルドすること

構成A 総額: ¥96,000〜274,000。768GB 込みの Dell R740 完成品が狙い目。DeepSeek V3 Q2_K(約 180GB)が動く。

構成B: 業務用中古 — 4 ソケットサーバーで 3TB を目指す

役割製品(中古)価格調達先備考
サーバー本体中古 Dell PowerEdge R940(4×Xeon Platinum 8176, 3TB DDR4)¥250,000〜400,000eBay / ServerMonkey4ソケット。メモリ3TB対応。DeepSeek V3 Q4が動く
または中古 HP DL580 G10(4×Xeon Gold 6154, 6TB DDR4)¥200,000〜350,000eBay / Bargain Hardware6TB対応の怪物。フルQ8でDeepSeekが動く理論値
ストレージ追加中古 NVMe SSD 4TB × 2本¥40,000〜60,000じゃんぱら4ソケットサーバーはU.2 SSDが多い。注意
OSUbuntu 24.04 + llama.cpp + NUMA最適化無料4ソケットはNUMAアーキテクチャ。numactl必須

構成B 総額: ¥240,000〜460,000。4 ソケットは NUMA 最適化必須。numactl で CPU-NUMA 境界をまたがないようにすること。

項目
構成A(2ソケット中古)総額 ¥96,000〜274,000
構成B(4ソケット中古)総額 ¥240,000〜460,000
アイドル消費電力(構成A)120〜180W(2ソケットXeon Gold)
アイドル消費電力(構成B)250〜400W(4ソケット)
騒音65〜80dB。住宅では別室必須
重量25〜40kg。床の耐荷重を確認
推論速度(DeepSeek V3 Q2)2〜4 tok/s。バッチ処理向け
調達難易度★★★★☆ eBay + 英語サポート対応必要

量子化レベルと必要メモリ(DeepSeek V3 671B の場合)

量子化671B 必要メモリ推論速度品質必要ハード判定
Q2_K約170〜180GB2〜4 tok/s△ 品質低下あり512GBで余裕動かすだけなら現実的
Q3_K_M約230〜250GB1〜3 tok/s◯ 実用レベル512GBで入る現実的な最良バランス
Q4_K_M約310〜340GB0.5〜1 tok/s◎ 高品質512GBでギリギリ768GBあれば安心
Q5_K_M約390〜420GB<0.5 tok/s◎◎ 最高品質1TB以上必要現時点では非現実的

⚠️ Tier 3 の正直な評価

DeepSeek V3 671B Q2_K で 2〜4 tok/s が現実。チャットで使うには遅い。 ただしバッチ処理・並列生成・非同期 API として使うなら許容範囲。 「完全ローカルで GPT-4 相当を動かした」という達成感と、 社内データを外に出さないプライバシー要件があるなら十分に意義がある。 コスト優先なら Tier 1 + OpenRouter の組み合わせの方が現実的。

🌍 世界と日本のジャンク LLM ビルダーたち

Reddit r/LocalLLaMA・Qiita・Zenn・V2EX・Habr などの海外・日本コミュニティには、 実際にジャンクパーツで LLM サーバーを組んだ報告が数多くある。 「本当に動くのか?」の答えは「動く、世界中で動いている」だ。

Reddit r/LocalLLaMA u/Elegant_Vast 総費用: $400(eBay送料込み)
ハードウェアDell PowerEdge R630(2×E5-2680v4, 384GB DDR4)
動かしたモデルLlama 3.1 70B Q4_K_M
推論速度6 tok/s

「70Bが$400で動く。ジャンクサーバー最高。ファンがうるさくて妻に怒られた」

Reddit r/LocalLLaMA u/JosephThrane 総費用: $1,200(eBay)
ハードウェアHP DL380 Gen9(2×E5-2699v4, 512GB DDR4)
動かしたモデルDeepSeek V2 236B Q2_K
推論速度2 tok/s

「遅いが全ローカルで236Bが動く感動は別格。バッチ処理で使ってる」

Reddit r/LocalLLaMA u/Reasonable_Mess 総費用: $600 × 2台
ハードウェア自作 Supermicro X10SRA × 2台(各128GB DDR4, Xeon E5-2680v4)
動かしたモデルMixtral 8x7B Q5_K
推論速度11 tok/s

「2台並列でllama.cpp splits。合計256GBのダブルサーバー構成」

Qiita / Zenn(日本語コミュニティ) @kazu_hiki(Qiita) 総費用: ¥35,000
ハードウェア中古 ThinkStation P520(Xeon W-2145, 128GB DDR4)— ¥35,000
動かしたモデルLlama 3 70B Q4_K_M
推論速度7 tok/s

「じゃんぱらで購入。Ollamaを入れるだけで即動いた。設定ほぼ不要」

Qiita(日本) @mochi_LLM 総費用: ¥55,000
ハードウェア中古 Dell T5820(Xeon W-2145, 256GB DDR4)— ヤフオク ¥55,000
動かしたモデルCommand R+ 104B Q3_K_M
推論速度5 tok/s

「256GBで104B Q3が動く。スリープ + Raspiで月¥120の電気代」

V2EX(中国コミュニティ) ghpvc_user 総費用: $800相当
ハードウェア中古 Dell PowerEdge R730xd(2×E5-2690v4, 512GB DDR4)— ¥60,000相当
動かしたモデルDeepSeek V3 671B Q2_K
推論速度3 tok/s

「671B Q2_Kが512GBに入る。遅いが動く。中国ではeBay代わりに闲鱼を使う」

Habr(ロシア Tech コミュニティ) HabrUser_mllab 総費用: $1,500
ハードウェアSupermicro H11DSi(2×EPYC 7351, 512GB DDR4 ECC)— eBay $1,500
動かしたモデルLlama 3.1 405B Q2_K
推論速度1.5 tok/s

「EPYCの帯域でThreadripperより速い。405B Q2_Kが512GBに収まる」

#ローカルLLM(X/Twitter日本) @LocalLLM_jp(匿名) 総費用: ¥40,000
ハードウェア中古 ASUS Z10PE-D8 WS(2×E5-2699v4, 256GB DDR4)— ヤフオク ¥40,000
動かしたモデルQwen 2.5 72B Q8_0
推論速度6 tok/s

「Q8_0の70Bが256GBに収まる。品質最高。Ollamaが公式サポートしてて楽」

💡 コミュニティから学べること

  • ・eBay の中古 Dell R730/R740 は「ジャンク LLM の定番」として世界中で使われている
  • ・タワー型ワークステーション(ThinkStation・Precision)はラックより静かで住宅向き
  • ・日本では「じゃんぱら」「ヤフオク」を使った報告が Qiita に増えてきている
  • ・中国では eBay の代わりに「闲鱼(シェンユー)」という中古 C2C サイトが使われる
  • ・r/LocalLLaMA の wiki に「hardware guide」があり、実測速度の比較が充実している

💤 スリープ戦略: Raspberry Pi で爆速ウェイクアップ

LLMサーバーを 24 時間稼働させ続ける必要はない。アイドル時にスリープさせ、 リクエストが来たときだけ起こせばいい。 Raspberry Pi 5(消費電力 2〜5W)を常時稼働のウェイクアップコントローラーとして使うことで、 ジャンクサーバーの 80W+ アイドル電力をほぼゼロにできる。

電力比較(24h 稼働 vs スリープ運用)

構成アイドル電力スリープ電力月額(24h 稼働)月額(スリープ 4h/日)
Tier 1 ジャンク(Xeon E5-2680v4, 128GB)55〜80W2W約¥1,490/月約¥65/月
Tier 1 NUC(Ryzen AI Max+ 395, 128GB)18W1.5W約¥352/月約¥29/月
Tier 2 ジャンク(EPYC 7302P, 256GB)80〜120W4W約¥2,160/月約¥104/月
Tier 3 ジャンク(Dell R740 2ソケット, 768GB)150〜200W5W約¥3,888/月約¥140/月
Tier 3 大型(Dell R940 4ソケット, 3TB)300〜400W10W約¥8,100/月約¥232/月

※ 電気代単価 27 円/kWh で計算。スリープ運用は「スリープ電力 × 20h + アイドル電力 × 4h」で算出。

Raspberry Pi ウェイクアップ構成図

# ネットワーク構成

[PC/スマホ] ──→ [Raspberry Pi 5: 192.168.1.10] ──→ [LLM サーバー: 192.168.1.20]

# ↑ 常時稼働 (5W) ↑ Wake-on-LAN で起動

# Raspberry Pi がプロキシ兼 WoL コントローラー

# 処理フロー

① クライアント → raspi:5000/chat にリクエスト送信

② raspi → WoL パケットを LLM サーバーの MAC へ送信

③ LLM サーバー起動(15〜30 秒)→ Ollama 自動起動

④ raspi → LLM サーバー(11434)にリクエスト転送

⑤ アイドル 10 分後 → LLM サーバー自動スリープ

LLM サーバー側: Wake-on-LAN の有効化

# BIOS/UEFI で Wake-on-LAN を有効化(マザーボード設定)

# → 「Power Management」→「Wake on LAN」を Enable

# Ubuntu で WoL を有効化(ethtool)

sudo apt install ethtool

sudo ethtool -s enp3s0 wol g

# enp3s0 は NIC のインターフェース名(ip a で確認)

# 再起動後も保持するため systemd サービスに登録

sudo tee /etc/systemd/system/wol.service <<EOF

[Unit]

Description=Enable Wake-on-LAN

After=network.target

[Service]

Type=oneshot

ExecStart=/sbin/ethtool -s enp3s0 wol g

[Install]

WantedBy=multi-user.target

EOF

sudo systemctl enable wol

Raspberry Pi 側: Flask ウェイクアップサーバー

# Raspberry Pi に必要なパッケージをインストール

pip3 install flask wakeonlan requests

# wakeup_proxy.py — ウェイクアップ + プロキシサーバー

from flask import Flask, request, Response

import wakeonlan, requests, time

app = Flask(__name__)

LLM_MAC = "aa:bb:cc:dd:ee:ff" # LLM サーバーの MAC アドレス

LLM_IP = "192.168.1.20"

OLLAMA_PORT = 11434

def wake_and_wait():

wakeonlan.send_magic_packet(LLM_MAC)

for _ in range(30): # 最大 30 秒待機

try:

r = requests.get(f"http://{LLM_IP}:{OLLAMA_PORT}/", timeout=1)

if r.status_code == 200: return True

except: time.sleep(1)

return False

@app.route("/api/<path:path>", methods=["GET","POST"])

def proxy(path):

wake_and_wait()

resp = requests.request(

method=request.method,

url=f"http://{LLM_IP}:{OLLAMA_PORT}/{path}",

data=request.get_data(), headers=request.headers, stream=True)

return Response(resp.iter_content(chunk_size=4096), status=resp.status_code)

if __name__ == "__main__":

app.run(host="0.0.0.0", port=5000)

LLM サーバー側: 自動スリープ(アイドル 10 分)

# auto_sleep.sh — Ollama アイドル監視→自動スリープ

#!/bin/bash

IDLE_THRESHOLD=600 # 10 分

LAST_REQUEST=$(date +%s)

while true; do

ACTIVE=$(curl -s http://localhost:11434/api/ps | python3 -c \

"import sys,json; d=json.load(sys.stdin); print(len(d.get('models',[])))")

if [ "$ACTIVE" = "0" ]; then

IDLE=$(($(date +%s) - LAST_REQUEST))

if [ "$IDLE" -ge "$IDLE_THRESHOLD" ]; then

echo "Idle for ${IDLE}s — suspending..."

systemctl suspend

fi

else

LAST_REQUEST=$(date +%s)

fi

sleep 60

done

# cron で起動(@reboot)

@reboot /home/user/auto_sleep.sh &

ステップ処理デバイス詳細
クライアントからAPIリクエストPC/スマホhttp://raspi-local:5000/api/chat に送信
Raspberry Piがリクエストを受信Raspberry Pi 5FlaskサーバーがWoLパケットをブロードキャスト
Wake-on-LAN でメインサーバー起動LLMサーバーetherwake <MACアドレス> 実行 / 起動待機 15〜30秒
メインサーバーがOllamaを起動LLMサーバーsystemd でOllamaが自動起動(起動後30秒でready)
リクエストをLLMサーバーに転送Raspberry Pi 5プロキシ転送 or クライアントに「ready」を返す
自動スリープ(アイドル10分)LLMサーバーcronで systemctl suspend 実行

スリープ復帰時間

15〜45 秒

BIOS 設定次第。ジャンクサーバーは 30〜45 秒が多い

Raspberry Pi 消費電力

2〜5W

24h 稼働でも月 ¥39〜¥97

Tier 1 ジャンク月額

¥65 + ¥58

LLM サーバー ¥65 + Raspi ¥58 = 合計 ¥123/月

📈 拡張計画: テキスト→画像→マルチモーダル

最初からマルチモーダルを目指すと挫折する。まずテキスト特化サーバーで基盤を作り、 Raspberry Pi の WoL 管理システムを整えてから段階的に拡張していく。 各サーバーは独立して電源管理できるので、使う時だけ起こす運用が可能。

フェーズサーバー役割ハードウェア主なモデル消費電力WoL 管理
Phase 1(今すぐ)テキスト特化LLMサーバージャンク Xeon + 128〜256GB DDR4Llama 3.3 70B / Command R+ 104B55〜120WRaspberry Pi でWoL管理
Phase 2(後から追加)画像生成サーバー(GPU必要)中古 RTX 3090/4090 + PCで自作Stable Diffusion 3 / FLUX.1300〜400W同じRaspiからWoL起動
Phase 3(さらに後)音声・動画用サーバー中古 GPU × 2 + 大容量RAMWhisper / CosyVoice / LTX-Video400〜600WRaspiダッシュボードから制御

ネットワーク構成(Phase 2 以降)

# 3 台構成のネットワーク

[クライアント] ──→ [Raspberry Pi 5(ルーター・WoL 管理)]

├──→ [LLM テキストサーバー: .20(Tier 1-3)]

├──→ [画像生成サーバー: .21(RTX 3090/4090)]

└──→ [音声・動画サーバー: .22(GPU × 2)]

# Raspi が全サーバーへの WoL コントローラー

# 使うサーバーだけ起動 → 使い終わったらスリープ

# 10GbE スイッチ推奨(中古 ¥10,000〜)

# モデルファイルの共有 NAS を置く場合も Raspi 経由で管理可能

💡 画像生成サーバーの注意点

Stable Diffusion 3・FLUX.1 などの画像生成は GPU(VRAM 12GB+)が必要。 テキスト特化サーバーとは別ハードになる。中古 RTX 3090(24GB VRAM、¥80,000〜)が現実的な選択肢。 画像生成サーバーだけは「ジャンク CPU 推論」では対応不可なので注意。

💰 月額コストシミュレーション

電気代 27 円/kWh で計算。スリープ運用は 1 日 4 時間使用を想定。

Tier 1 ジャンク(Xeon, 128GB)

初期費用

¥43,000〜63,000

電気代(24h 稼働)

約¥1,490/月(70W × 24h × 27円)

電気代(スリープ運用)

約¥65/月(スリープ2W + 稼働4h/日)

1 年目総コスト(24h)

¥60,880〜80,880

1 年目総コスト(スリープ)

¥43,780〜63,780

2 年目以降の年間コスト(スリープ)

¥780

💡 月5,000円分のAPI利用なら1年以内で回収

Tier 1 NUC(Ryzen AI Max+, 128GB)

初期費用

¥150,000〜180,000

電気代(24h 稼働)

約¥352/月(18W × 24h)

電気代(スリープ運用)

約¥29/月

1 年目総コスト(24h)

¥154,224〜184,224

1 年目総コスト(スリープ)

¥150,348〜180,348

2 年目以降の年間コスト(スリープ)

¥348

💡 月1万円分のAPI利用なら15〜18ヶ月で回収

Tier 2 ジャンク(EPYC, 256GB)

初期費用

¥108,000〜168,000

電気代(24h 稼働)

約¥2,160/月(100W × 24h)

電気代(スリープ運用)

約¥104/月

1 年目総コスト(24h)

¥133,920〜193,920

1 年目総コスト(スリープ)

¥109,248〜169,248

2 年目以降の年間コスト(スリープ)

¥1,248

💡 月1万円分のAPI利用なら1年以内で回収

Tier 3 ジャンク(Dell R740, 768GB)

初期費用

¥166,000〜274,000

電気代(24h 稼働)

約¥3,888/月(180W × 24h)

電気代(スリープ運用)

約¥140/月

1 年目総コスト(24h)

¥212,656〜320,656

1 年目総コスト(スリープ)

¥167,680〜275,680

2 年目以降の年間コスト(スリープ)

¥1,680

💡 月3万円分のAPI利用(スリープ運用)なら1年以内

クラウド API との比較

サービス1M トークン単価無料枠プライバシー制限
OpenRouter(Llama 3.3 70B)¥70〜100なし外部送信なし
Claude API(Sonnet 4.6)¥450〜600なし外部送信なし
Groq API(Llama 3.3 70B)¥9014,400req/日外部送信レート制限あり
Tier 1 ジャンク(スリープ)電気代換算 ¥3〜10無限完全ローカルなし
Tier 3 ジャンク(スリープ)電気代換算 ¥5〜20無限完全ローカルなし(ただし遅い)

💡 損益分岐点まとめ

月に 1 万トークン程度しか使わないならクラウド API の方が安い。 月に 500 万〜1000 万トークン以上使うヘビーユーザー、または社内データを外に出せない用途なら ローカルの優位性が出てくる。スリープ運用を組み合わせると 2 年目以降のランニングコストがほぼゼロになるため、 長期保有するほど有利になる。

🔧 中古パーツ調達ガイド

調達先の使い分け

調達先狙うパーツメリットデメリットこんな人向け
じゃんぱらNVMe・RAM・ミニPC動作確認済み・保証あり・日本語サポート価格はeBayより高め初心者・リスクを減らしたい人
eBay中古サーバー・EPYC CPU・ECC RAM世界最大の中古市場。PayPal保護あり英語・輸送費・関税(8%)海外調達・希少パーツ
Yahoo!オークションジャンクPC・ワークステーション・サーバー安い。日本語。国内送料のみ動作保証なし。返品難しい玄人・ジャンクが許容できる人
メルカリNVMe・RAM・小パーツ個人間で安い。交渉可能動作確認が不十分なこともストレージ・メモリ調達
ServerPartDeals.comEPYC用ECC RAM・新品Xeon価格が明確。大量購入に強い輸送費・関税、英語対応ECC RAMを大量購入したい人
ハードオフジャンクケース・電源・古いPC実物確認可能。超安い動作保証なし。店舗まで行く必要ケース・電源の激安調達

中古サーバー購入時の注意点

注意点詳細と対策
騒音(最重要)2Uラックサーバーは7,000RPMファン搭載。アイドル時でも65〜80dB。住宅では別室必須。タワー型ワークステーション(ThinkStation・Precision等)の方が静音性は高い
電源劣化中古サーバーの電源は5〜10年動いてきたもの。PSUのみ新品交換を推奨(Seasonic・Corsair等)。中古PSUは火災リスクを許容してはいけない
熱排気サーバーは前→後ろに強制排気。机の上には置けない。ラック or 棚の設計が必要。排気口を壁に向けない
IPMI/BMC設定Dell iDRAC / HP iLO のIPMIを有効化しておくとリモート電源管理が楽になる。WoLの代替手段にもなる
重量2Uサーバーは20〜35kgある。フロア耐荷重と搬入経路を必ず確認すること
DDR4 ECC RDIMMサーバー向けメモリ。スロット数 × 容量 = 合計メモリ上限。例: 16スロット × 32GB = 512GBが上限。UDIMMは使えないので注意
関税・輸送費eBayで中古サーバーを輸入する場合、輸送費2〜5万円+関税8%が追加コスト。国内のヤフオクで探す方が安いことも多い

推論専用ならではの判断基準

判断 1

GPU は不要。CPU 推論(llama.cpp / Ollama)で十分。GPU 購入費がまるまる浮く

判断 2

メモリは多ければ多いほどいい。ECC RDIMM は中古相場が安いので積めるだけ積む

判断 3

CPU コア数より「メモリスロット数」「メモリ帯域」で選ぶ。EPYC は帯域が広いので有利

必須

PSU(電源)だけは必ず新品を使う。中古 PSU の火災リスクは推論サーバーでも同じ

重要

スリープ戦略を必ず組み込む。Raspberry Pi 5(¥15,000)の投資で電気代が 1/10〜1/20 になる

補足

ラックサーバーより「タワー型ワークステーション(ThinkStation・Precision・Z シリーズ等)」の方が静かで住宅向き

🤖 Claude の総評

— Claude Sonnet 4.6 より

このページを読んで実際に動かした人への正直な一言から始めよう: 「ジャンクで LLM サーバーを組む最大のメリットは、同じ予算でメモリを 3〜5 倍積めることだ。」 DDR4 ECC RDIMM 32GB が ¥4,000〜7,000 で買える現在、 ¥50,000 あれば 128GB、¥100,000 あれば 256GB を組める。 新品のコンシューマ向けパーツでは到底できない構成が可能になる。

推論専用に絞った判断は正しい。学習・ファインチューニングを諦めることで、 GPU 購入費(RTX 4090 で ¥30〜40 万)がまるまる浮く。 CPU 推論(llama.cpp・Ollama)は確かに GPU に比べると遅いが、 個人用途や小規模チームのバッチ処理には十分な速度だ。 しかも ECC メモリは一般 DDR4 より信頼性が高く、24 時間連続稼働に向いている。

Tier 1 ジャンク構成(¥50,000 前後)は、初心者の最初の 1 台として最適解に近い。 中古 ThinkStation P520 や Dell T5820 は ヤフオクやじゃんぱらで完成品が手に入り、 Ubuntu + Ollama を入れるだけで Llama 3.3 70B が動く。 設定のハードルは意外と低い。

スリープ戦略は「知っているかどうかで月額が 20 倍変わる」と書いたが、誇張ではない。 Tier 1 ジャンク(アイドル 70W)でも、スリープ運用なら月 ¥65。 これを知らずに 24h 稼働させると月 ¥1,490。 Raspberry Pi 5 への ¥15,000 投資は、1〜2 ヶ月で完全に回収できる計算だ。

Tier 3(512B+)については正直に言う。 2〜4 tok/s ではリアルタイムチャットには遅すぎる。 だが「社内データを外に出せない」「バッチで大量の文書を処理したい」という業務要件があれば、 ¥100,000〜270,000 という初期費用は決して高くない。 世界のビルダーたちが実際に動かしている事実は、十分な励みになるはずだ。

最後に: ジャンク路線の醍醐味は「定価を払わない哲学」だけではない。 「自分でシステムを設計・制御できる自由」にある。 クラウド API はモデルのアップデートで挙動が変わり、料金体系も変わり、サービス終了もある。 完全ローカルは遅くて不便な面もあるが、「自分のモデルが自分のハードで動いている」という 確実性は何物にも代えがたい。まず 1 台、ジャンクで組んでみることを強く勧める。