実践チュートリアル:商品CMを作る
RTX 4070 Super(12GB VRAM)環境で、完全ローカルで商品CMを作成するシミュレーション
推奨環境
今回作るもの:コーヒーブランドの15秒CM
完成イメージ
商品登場
(ゆっくりズームイン)
湯気が立ち上る
(動的シーン)
商品を手に取る
(人物シーン)
ロゴ表示
+ナレーション
使用ツール(すべてローカル・無料)
| 工程 | ツール | 役割 | VRAM使用 |
|---|---|---|---|
| 統合環境 | ComfyUI | ノードベースのAI統合環境 | - |
| 照明調整 | IC-Light | 商品写真のライティング変更 | ~6GB |
| 動画生成 | Wan 2.2 (1.3B) | 静止画→動画変換 | ~10GB |
| 人物動画 | LivePortrait | 静止画の人物を動かす | ~8GB |
| 音声合成 | VOICEVOX | ナレーション生成 | CPU可 |
| 編集 | LosslessCut | 動画カット・結合 | - |
0 環境構築(初回のみ)
ComfyUI のインストール
# Git でクローン
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
# Python仮想環境を作成
python -m venv venv
venv\Scripts\activate
# 依存関係をインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
# 起動
python main.py ブラウザで http://127.0.0.1:8188 を開く
ComfyUI Manager のインストール
# custom_nodes フォルダに移動
cd ComfyUI/custom_nodes
# ComfyUI Manager をクローン
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
# ComfyUI を再起動 これでComfyUI内から各種ノードを簡単にインストールできる
VOICEVOX のインストール
公式サイト からインストーラーをダウンロードして実行するだけ。
LosslessCut のインストール
GitHub Releases からポータブル版(.7z)をダウンロードして展開するだけ。
1 素材の準備
必要な素材
- 1. 商品写真(1024x1024以上推奨)
白背景で撮影したもの - 2. 人物写真(オプション)
正面向きの顔写真 - 3. ロゴ画像(PNG透過)
最終シーン用 - 4. ナレーション原稿
15秒で読める分量(約50文字)
今回の例
商品:コーヒーカップ(白背景写真)
コンセプト:朝の一杯で目覚める贅沢
ナレーション原稿:
「朝の静寂に、一杯の贅沢を。
SATOAMA COFFEE。
あなたの一日が、ここから始まる。」
(約45文字、約12秒)
2 IC-Light で照明を調整
IC-Light とは
商品写真の照明を後から自由に変更できるAI。白背景で撮った写真を、 朝日が差し込むような暖かい照明や、スタジオ照明風に変換できる。
ComfyUI で IC-Light を使う
- 1 ComfyUI Manager から「IC-Light」ノードをインストール
- 2 IC-Light モデル(iclight_sd15_fc.safetensors)をダウンロード
ComfyUI/models/unet/に配置 - 3 ワークフロー例をロード(ComfyUI Managerのワークフローギャラリーから)
プロンプト例(朝の光)
Positive: warm morning sunlight from left side, soft shadows,
cozy atmosphere, professional product photography
Negative: harsh lighting, overexposed, dark, artificial 処理時間:約20-30秒(RTX 4070 Super)
シミュレーション結果
白背景の商品写真 → 左側から朝日が差し込む暖かい雰囲気の写真に変換
出力: coffee_morning_light.png
3 Wan 2.2 で静止画を動画化
Wan 2.2 (1.3B) を選ぶ理由
- - 12GB VRAMで動作する最新の高品質モデル
- - Image-to-Video(I2V)に対応
- - 5秒の動画を約2分で生成
- - ComfyUIで簡単に使える
ComfyUI で Wan 2.2 を使う
- 1 ComfyUI Manager から「ComfyUI-WanVideoWrapper」をインストール
- 2 Wan2.2-I2V-1.3B モデルをダウンロード(HuggingFaceから)
ComfyUI/models/wan/に配置 - 3 I2Vワークフローをロード
シーン1: 商品ズームイン(0-3秒)
入力画像: coffee_morning_light.png
Prompt: slow zoom in, coffee cup on table, steam rising gently,
morning atmosphere, cinematic, smooth camera movement
設定:
- フレーム数: 81 (約3秒 @24fps)
- 解像度: 832x480
- Steps: 30
- CFG: 6.0 処理時間:約2分(RTX 4070 Super)
出力:scene1_zoom.mp4
シーン2: 湯気が立ち上る(3-8秒)
入力画像: coffee_morning_light.png
Prompt: hot coffee cup, steam rising and swirling beautifully,
soft focus background, warm lighting, peaceful morning
設定:
- フレーム数: 121 (約5秒 @24fps)
- 解像度: 832x480
- Steps: 30 処理時間:約3分
出力:scene2_steam.mp4
4 LivePortrait で人物を動かす
LivePortrait とは
Kuaishou(快手)が開発したオープンソースの顔アニメーション技術。 1枚の顔写真から、自然な表情変化や頭の動きを生成できる。 Kling AIの技術がベース。
ComfyUI で LivePortrait を使う
- 1 ComfyUI Manager から「ComfyUI-LivePortraitKJ」をインストール
- 2 モデルファイルを自動ダウンロード(初回実行時)
- 3 ドライビング動画(動きの参照)を用意
または表情パラメータを直接指定
シーン3: コーヒーを楽しむ人物(8-12秒)
入力:
- ソース画像: person_portrait.png(正面顔写真)
- ドライビング: 微笑んで目を閉じる→開ける動き
LivePortrait設定:
- リターゲティング強度: 0.8
- 表情転送: 有効
- 頭部動き: 軽く頷く動作 処理時間:約30秒(4秒の動画)
出力:scene3_person.mp4
代替案: HeyGem(フル機能版)
より高品質な結果が必要な場合は、HeyGem(HeyGenのオープンソース版)を使用。 リップシンク付きで、ナレーション音声に合わせて口を動かすことも可能。 ただしVRAM要件が高め(12GB推奨)。
5 VOICEVOX でナレーション作成
VOICEVOX とは
完全無料・商用利用可能な日本語音声合成ソフト。 複数のキャラクター音声が用意されており、CMナレーションに最適。 CPUでも動作するが、GPUがあれば高速化可能。
ナレーション作成手順
- 1 VOICEVOXを起動
- 2 キャラクターを選択(例:四国めたん・ノーマル、ナースロボ_タイプT)
- 3 テキストを入力:
朝の静寂に、一杯の贅沢を。SATOAMA COFFEE。あなたの一日が、ここから始まる。 - 4 読み上げ速度・抑揚を調整(話速: 0.95、抑揚: 1.1 推奨)
- 5 WAV形式でエクスポート
出力ファイル
narration.wav(約12秒)
サンプリングレート: 24kHz / 16bit
おすすめキャラクター(CM向け)
落ち着いた女性声
クール・知的な声
落ち着いた男性声
6 LosslessCut で編集・結合
動画素材の確認
- -
scene1_zoom.mp4(3秒) - -
scene2_steam.mp4(5秒) - -
scene3_person.mp4(4秒) - -
narration.wav(12秒) - -
logo.png(ロゴ画像)
FFmpeg で結合(コマンドライン)
# 動画を連結
ffmpeg -f concat -safe 0 -i filelist.txt -c copy combined.mp4
# filelist.txt の内容:
# file 'scene1_zoom.mp4'
# file 'scene2_steam.mp4'
# file 'scene3_person.mp4'
# ナレーションを追加
ffmpeg -i combined.mp4 -i narration.wav \
-c:v copy -c:a aac -shortest \
final_cm.mp4LosslessCut でGUI編集
- 1. LosslessCutを起動し、すべての動画ファイルをドラッグ&ドロップ
- 2. 「ツール」→「ファイルを結合」を選択
- 3. 順序を確認して「結合」をクリック
- 4. 結合後、「ツール」→「トラックを追加」でナレーション音声を追加
完成!
final_cm.mp4(15秒、1080p、H.264)
ファイルサイズ: 約5-10MB
総所要時間(RTX 4070 Super)
| 工程 | 処理時間 | 備考 |
|---|---|---|
| IC-Light 照明調整 | 30秒 | 1枚 |
| Wan 2.2 動画生成 | 5分 | 2シーン合計 |
| LivePortrait 人物 | 30秒 | 1シーン |
| VOICEVOX ナレーション | 1分 | 調整込み |
| 編集・結合 | 2分 | LosslessCut |
| 合計 | 約10分 | 初回セットアップ除く |
※ 初回はモデルダウンロードに時間がかかります(合計20-30GB程度)
※ 試行錯誤を含めると実際は30分〜1時間程度
プロのTips
クオリティを上げるコツ
- - 入力画像の解像度は高いほど良い
- - Wan 2.2のSteps数を40-50に上げる
- - 複数回生成して最良のものを選ぶ
- - BGMを追加するとプロ感UP
VRAMが不足したら
- - 解像度を下げる(480p→720pアップスケール)
- - 他のアプリを終了
- - Wan 2.2の代わりにAnimateDiff(8GB可)
- - シーケンシャル処理(同時起動しない)