実践チュートリアル：商品CMを作る

RTX 4070 Super（12GB VRAM）環境で、完全ローカルで商品CMを作成するシミュレーション

推奨環境

GPU: RTX 4070 Super（12GB）

RAM: 32GB以上推奨

OS: Windows 11

ストレージ: SSD 100GB以上空き

今回作るもの：コーヒーブランドの15秒CM

完成イメージ

0-3秒

商品登場
（ゆっくりズームイン）

3-8秒

湯気が立ち上る
（動的シーン）

8-12秒

商品を手に取る
（人物シーン）

12-15秒

ロゴ表示
+ナレーション

使用ツール（すべてローカル・無料）

工程	ツール	役割	VRAM使用
統合環境	ComfyUI	ノードベースのAI統合環境	-
照明調整	IC-Light	商品写真のライティング変更	~6GB
動画生成	Wan 2.2 (1.3B)	静止画→動画変換	~10GB
人物動画	LivePortrait	静止画の人物を動かす	~8GB
音声合成	VOICEVOX	ナレーション生成	CPU可
編集	LosslessCut	動画カット・結合	-

0 環境構築（初回のみ）

ComfyUI のインストール

# Git でクローン
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# Python仮想環境を作成
python -m venv venv
venv\Scripts\activate

# 依存関係をインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# 起動
python main.py

ブラウザで http://127.0.0.1:8188 を開く

ComfyUI Manager のインストール

# custom_nodes フォルダに移動
cd ComfyUI/custom_nodes

# ComfyUI Manager をクローン
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

# ComfyUI を再起動

これでComfyUI内から各種ノードを簡単にインストールできる

VOICEVOX のインストール

公式サイトからインストーラーをダウンロードして実行するだけ。

LosslessCut のインストール

GitHub Releases からポータブル版（.7z）をダウンロードして展開するだけ。

1 素材の準備

必要な素材

1. 商品写真（1024x1024以上推奨）
白背景で撮影したもの
2. 人物写真（オプション）
正面向きの顔写真
3. ロゴ画像（PNG透過）
最終シーン用
4. ナレーション原稿
15秒で読める分量（約50文字）

今回の例

商品：コーヒーカップ（白背景写真）

コンセプト：朝の一杯で目覚める贅沢

ナレーション原稿：

「朝の静寂に、一杯の贅沢を。
SATOAMA COFFEE。
あなたの一日が、ここから始まる。」

（約45文字、約12秒）

2 IC-Light で照明を調整

IC-Light とは

商品写真の照明を後から自由に変更できるAI。白背景で撮った写真を、朝日が差し込むような暖かい照明や、スタジオ照明風に変換できる。

ComfyUI で IC-Light を使う

1 ComfyUI Manager から「IC-Light」ノードをインストール
2 IC-Light モデル（iclight_sd15_fc.safetensors）をダウンロード
ComfyUI/models/unet/ に配置
3 ワークフロー例をロード（ComfyUI Managerのワークフローギャラリーから）

プロンプト例（朝の光）

Positive: warm morning sunlight from left side, soft shadows,
          cozy atmosphere, professional product photography

Negative: harsh lighting, overexposed, dark, artificial

処理時間：約20-30秒（RTX 4070 Super）

シミュレーション結果

白背景の商品写真 → 左側から朝日が差し込む暖かい雰囲気の写真に変換
出力: coffee_morning_light.png

3 Wan 2.2 で静止画を動画化

Wan 2.2 (1.3B) を選ぶ理由

- 12GB VRAMで動作する最新の高品質モデル
- Image-to-Video（I2V）に対応
- 5秒の動画を約2分で生成
- ComfyUIで簡単に使える

ComfyUI で Wan 2.2 を使う

1 ComfyUI Manager から「ComfyUI-WanVideoWrapper」をインストール
2 Wan2.2-I2V-1.3B モデルをダウンロード（HuggingFaceから）
ComfyUI/models/wan/ に配置
3 I2Vワークフローをロード

シーン1: 商品ズームイン（0-3秒）

入力画像: coffee_morning_light.png

Prompt: slow zoom in, coffee cup on table, steam rising gently,
        morning atmosphere, cinematic, smooth camera movement

設定:
- フレーム数: 81 (約3秒 @24fps)
- 解像度: 832x480
- Steps: 30
- CFG: 6.0

処理時間：約2分（RTX 4070 Super）
出力：scene1_zoom.mp4

シーン2: 湯気が立ち上る（3-8秒）

入力画像: coffee_morning_light.png

Prompt: hot coffee cup, steam rising and swirling beautifully,
        soft focus background, warm lighting, peaceful morning

設定:
- フレーム数: 121 (約5秒 @24fps)
- 解像度: 832x480
- Steps: 30

処理時間：約3分
出力：scene2_steam.mp4

4 LivePortrait で人物を動かす

LivePortrait とは

Kuaishou（快手）が開発したオープンソースの顔アニメーション技術。 1枚の顔写真から、自然な表情変化や頭の動きを生成できる。 Kling AIの技術がベース。

ComfyUI で LivePortrait を使う

1 ComfyUI Manager から「ComfyUI-LivePortraitKJ」をインストール
2 モデルファイルを自動ダウンロード（初回実行時）
3 ドライビング動画（動きの参照）を用意
または表情パラメータを直接指定

シーン3: コーヒーを楽しむ人物（8-12秒）

入力:
- ソース画像: person_portrait.png（正面顔写真）
- ドライビング: 微笑んで目を閉じる→開ける動き

LivePortrait設定:
- リターゲティング強度: 0.8
- 表情転送: 有効
- 頭部動き: 軽く頷く動作

処理時間：約30秒（4秒の動画）
出力：scene3_person.mp4

代替案: HeyGem（フル機能版）

より高品質な結果が必要な場合は、HeyGem（HeyGenのオープンソース版）を使用。リップシンク付きで、ナレーション音声に合わせて口を動かすことも可能。ただしVRAM要件が高め（12GB推奨）。

5 VOICEVOX でナレーション作成

VOICEVOX とは

完全無料・商用利用可能な日本語音声合成ソフト。複数のキャラクター音声が用意されており、CMナレーションに最適。 CPUでも動作するが、GPUがあれば高速化可能。

ナレーション作成手順

1 VOICEVOXを起動
2 キャラクターを選択（例：四国めたん・ノーマル、ナースロボ＿タイプT）
3 テキストを入力：
朝の静寂に、一杯の贅沢を。SATOAMA COFFEE。あなたの一日が、ここから始まる。
4 読み上げ速度・抑揚を調整（話速: 0.95、抑揚: 1.1 推奨）
5 WAV形式でエクスポート

出力ファイル

narration.wav（約12秒）
サンプリングレート: 24kHz / 16bit

6 LosslessCut で編集・結合

動画素材の確認

- scene1_zoom.mp4（3秒）
- scene2_steam.mp4（5秒）
- scene3_person.mp4（4秒）
- narration.wav（12秒）
- logo.png（ロゴ画像）

FFmpeg で結合（コマンドライン）

# 動画を連結
ffmpeg -f concat -safe 0 -i filelist.txt -c copy combined.mp4

# filelist.txt の内容:
# file 'scene1_zoom.mp4'
# file 'scene2_steam.mp4'
# file 'scene3_person.mp4'

# ナレーションを追加
ffmpeg -i combined.mp4 -i narration.wav \
  -c:v copy -c:a aac -shortest \
  final_cm.mp4

LosslessCut でGUI編集

1. LosslessCutを起動し、すべての動画ファイルをドラッグ&ドロップ
2. 「ツール」→「ファイルを結合」を選択
3. 順序を確認して「結合」をクリック
4. 結合後、「ツール」→「トラックを追加」でナレーション音声を追加

完成！

final_cm.mp4（15秒、1080p、H.264）
ファイルサイズ: 約5-10MB

総所要時間（RTX 4070 Super）

工程	処理時間	備考
IC-Light 照明調整	30秒	1枚
Wan 2.2 動画生成	5分	2シーン合計
LivePortrait 人物	30秒	1シーン
VOICEVOX ナレーション	1分	調整込み
編集・結合	2分	LosslessCut
合計	約10分	初回セットアップ除く

※ 初回はモデルダウンロードに時間がかかります（合計20-30GB程度）
※ 試行錯誤を含めると実際は30分〜1時間程度

プロのTips

クオリティを上げるコツ

- 入力画像の解像度は高いほど良い
- Wan 2.2のSteps数を40-50に上げる
- 複数回生成して最良のものを選ぶ
- BGMを追加するとプロ感UP

VRAMが不足したら

- 解像度を下げる（480p→720pアップスケール）
- 他のアプリを終了
- Wan 2.2の代わりにAnimateDiff（8GB可）
- シーケンシャル処理（同時起動しない）

次のステップ

プロンプト設計

より高度なプロンプトテクニック

カメラワーク

動きのバリエーションを学ぶ

ツール一覧

他のツールも試してみる