さとまたwiki

実践チュートリアル:商品CMを作る

RTX 4070 Super(12GB VRAM)環境で、完全ローカルで商品CMを作成するシミュレーション

推奨環境

GPU: RTX 4070 Super(12GB)
RAM: 32GB以上推奨
OS: Windows 11
ストレージ: SSD 100GB以上空き

今回作るもの:コーヒーブランドの15秒CM

完成イメージ

0-3秒

商品登場
(ゆっくりズームイン)

3-8秒

湯気が立ち上る
(動的シーン)

8-12秒

商品を手に取る
(人物シーン)

12-15秒

ロゴ表示
+ナレーション

使用ツール(すべてローカル・無料)

工程ツール役割VRAM使用
統合環境ComfyUIノードベースのAI統合環境-
照明調整IC-Light商品写真のライティング変更~6GB
動画生成Wan 2.2 (1.3B)静止画→動画変換~10GB
人物動画LivePortrait静止画の人物を動かす~8GB
音声合成VOICEVOXナレーション生成CPU可
編集LosslessCut動画カット・結合-

0 環境構築(初回のみ)

ComfyUI のインストール

# Git でクローン
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# Python仮想環境を作成
python -m venv venv
venv\Scripts\activate

# 依存関係をインストール
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# 起動
python main.py

ブラウザで http://127.0.0.1:8188 を開く

ComfyUI Manager のインストール

# custom_nodes フォルダに移動
cd ComfyUI/custom_nodes

# ComfyUI Manager をクローン
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

# ComfyUI を再起動

これでComfyUI内から各種ノードを簡単にインストールできる

VOICEVOX のインストール

公式サイト からインストーラーをダウンロードして実行するだけ。

LosslessCut のインストール

GitHub Releases からポータブル版(.7z)をダウンロードして展開するだけ。

1 素材の準備

必要な素材

  • 1. 商品写真(1024x1024以上推奨)
    白背景で撮影したもの
  • 2. 人物写真(オプション)
    正面向きの顔写真
  • 3. ロゴ画像(PNG透過)
    最終シーン用
  • 4. ナレーション原稿
    15秒で読める分量(約50文字)

今回の例

商品:コーヒーカップ(白背景写真)

コンセプト:朝の一杯で目覚める贅沢

ナレーション原稿:

「朝の静寂に、一杯の贅沢を。
SATOAMA COFFEE。
あなたの一日が、ここから始まる。」

(約45文字、約12秒)

2 IC-Light で照明を調整

IC-Light とは

商品写真の照明を後から自由に変更できるAI。白背景で撮った写真を、 朝日が差し込むような暖かい照明や、スタジオ照明風に変換できる。

ComfyUI で IC-Light を使う

  1. 1 ComfyUI Manager から「IC-Light」ノードをインストール
  2. 2 IC-Light モデル(iclight_sd15_fc.safetensors)をダウンロード
    ComfyUI/models/unet/ に配置
  3. 3 ワークフロー例をロード(ComfyUI Managerのワークフローギャラリーから)

プロンプト例(朝の光)

Positive: warm morning sunlight from left side, soft shadows,
          cozy atmosphere, professional product photography

Negative: harsh lighting, overexposed, dark, artificial

処理時間:約20-30秒(RTX 4070 Super)

シミュレーション結果

白背景の商品写真 → 左側から朝日が差し込む暖かい雰囲気の写真に変換
出力: coffee_morning_light.png

3 Wan 2.2 で静止画を動画化

Wan 2.2 (1.3B) を選ぶ理由

  • - 12GB VRAMで動作する最新の高品質モデル
  • - Image-to-Video(I2V)に対応
  • - 5秒の動画を約2分で生成
  • - ComfyUIで簡単に使える

ComfyUI で Wan 2.2 を使う

  1. 1 ComfyUI Manager から「ComfyUI-WanVideoWrapper」をインストール
  2. 2 Wan2.2-I2V-1.3B モデルをダウンロード(HuggingFaceから)
    ComfyUI/models/wan/ に配置
  3. 3 I2Vワークフローをロード

シーン1: 商品ズームイン(0-3秒)

入力画像: coffee_morning_light.png

Prompt: slow zoom in, coffee cup on table, steam rising gently,
        morning atmosphere, cinematic, smooth camera movement

設定:
- フレーム数: 81 (約3秒 @24fps)
- 解像度: 832x480
- Steps: 30
- CFG: 6.0

処理時間:約2分(RTX 4070 Super)
出力:scene1_zoom.mp4

シーン2: 湯気が立ち上る(3-8秒)

入力画像: coffee_morning_light.png

Prompt: hot coffee cup, steam rising and swirling beautifully,
        soft focus background, warm lighting, peaceful morning

設定:
- フレーム数: 121 (約5秒 @24fps)
- 解像度: 832x480
- Steps: 30

処理時間:約3分
出力:scene2_steam.mp4

4 LivePortrait で人物を動かす

LivePortrait とは

Kuaishou(快手)が開発したオープンソースの顔アニメーション技術。 1枚の顔写真から、自然な表情変化や頭の動きを生成できる。 Kling AIの技術がベース。

ComfyUI で LivePortrait を使う

  1. 1 ComfyUI Manager から「ComfyUI-LivePortraitKJ」をインストール
  2. 2 モデルファイルを自動ダウンロード(初回実行時)
  3. 3 ドライビング動画(動きの参照)を用意
    または表情パラメータを直接指定

シーン3: コーヒーを楽しむ人物(8-12秒)

入力:
- ソース画像: person_portrait.png(正面顔写真)
- ドライビング: 微笑んで目を閉じる→開ける動き

LivePortrait設定:
- リターゲティング強度: 0.8
- 表情転送: 有効
- 頭部動き: 軽く頷く動作

処理時間:約30秒(4秒の動画)
出力:scene3_person.mp4

代替案: HeyGem(フル機能版)

より高品質な結果が必要な場合は、HeyGem(HeyGenのオープンソース版)を使用。 リップシンク付きで、ナレーション音声に合わせて口を動かすことも可能。 ただしVRAM要件が高め(12GB推奨)。

5 VOICEVOX でナレーション作成

VOICEVOX とは

完全無料・商用利用可能な日本語音声合成ソフト。 複数のキャラクター音声が用意されており、CMナレーションに最適。 CPUでも動作するが、GPUがあれば高速化可能。

ナレーション作成手順

  1. 1 VOICEVOXを起動
  2. 2 キャラクターを選択(例:四国めたん・ノーマル、ナースロボ_タイプT)
  3. 3 テキストを入力:
    朝の静寂に、一杯の贅沢を。SATOAMA COFFEE。あなたの一日が、ここから始まる。
  4. 4 読み上げ速度・抑揚を調整(話速: 0.95、抑揚: 1.1 推奨)
  5. 5 WAV形式でエクスポート

出力ファイル

narration.wav(約12秒)
サンプリングレート: 24kHz / 16bit

おすすめキャラクター(CM向け)

四国めたん(ノーマル)
落ち着いた女性声
ナースロボ_タイプT
クール・知的な声
玄野武宏
落ち着いた男性声

6 LosslessCut で編集・結合

動画素材の確認

  • - scene1_zoom.mp4(3秒)
  • - scene2_steam.mp4(5秒)
  • - scene3_person.mp4(4秒)
  • - narration.wav(12秒)
  • - logo.png(ロゴ画像)

FFmpeg で結合(コマンドライン)

# 動画を連結
ffmpeg -f concat -safe 0 -i filelist.txt -c copy combined.mp4

# filelist.txt の内容:
# file 'scene1_zoom.mp4'
# file 'scene2_steam.mp4'
# file 'scene3_person.mp4'

# ナレーションを追加
ffmpeg -i combined.mp4 -i narration.wav \
  -c:v copy -c:a aac -shortest \
  final_cm.mp4

LosslessCut でGUI編集

  1. 1. LosslessCutを起動し、すべての動画ファイルをドラッグ&ドロップ
  2. 2. 「ツール」→「ファイルを結合」を選択
  3. 3. 順序を確認して「結合」をクリック
  4. 4. 結合後、「ツール」→「トラックを追加」でナレーション音声を追加

完成!

final_cm.mp4(15秒、1080p、H.264)
ファイルサイズ: 約5-10MB

総所要時間(RTX 4070 Super)

工程処理時間備考
IC-Light 照明調整30秒1枚
Wan 2.2 動画生成5分2シーン合計
LivePortrait 人物30秒1シーン
VOICEVOX ナレーション1分調整込み
編集・結合2分LosslessCut
合計約10分初回セットアップ除く

※ 初回はモデルダウンロードに時間がかかります(合計20-30GB程度)
※ 試行錯誤を含めると実際は30分〜1時間程度

プロのTips

クオリティを上げるコツ

  • - 入力画像の解像度は高いほど良い
  • - Wan 2.2のSteps数を40-50に上げる
  • - 複数回生成して最良のものを選ぶ
  • - BGMを追加するとプロ感UP

VRAMが不足したら

  • - 解像度を下げる(480p→720pアップスケール)
  • - 他のアプリを終了
  • - Wan 2.2の代わりにAnimateDiff(8GB可)
  • - シーケンシャル処理(同時起動しない)

次のステップ

この記事はClaude Opus 4.6によって作成されました