🎬 動画自動化設計書
更新日: 2026-03-31 ・ カテゴリ: dev
対象環境: さとまたちゃん専用(Sony ZV-E10 + AT2020 + RTX 4070 SUPER)
1. このページの問題意識
このページはツール紹介ではありません
「Whisperが使える」「ffmpegで正規化できる」という話は他の記事に無限にある。ここではさとまたちゃんの実際の機材・ソフト・ワークフローを前提に、 「何をどういう順序で自動化するか」「何が自動で何が手動か」を設計書として書く。ソースコードもコマンド例も出てこない。
現状の核心的な問題
さとまたちゃんには既に2つの独自ソフトが存在する。SatoMatashikiRecorder(録画担当)とSatoVideo Editor(編集担当)だ。 どちらも実装済みで動いている。しかし、この2つのソフトは現在「完全に分断されて」いる。 録画が終わったら、ファイルをエクスプローラーで探して、手動で編集ソフトに読み込ませる。そこに何分もかかっている。
現実的なゴール設定
「完全自動化」は理想だが、品質管理を捨てることになる。字幕の誤認識チェック、意図的な構成変更、サムネイルの最終確認——これらは人間が判断すべき作業だ。 目標は「完全自動」ではなく、「2クリック + 5〜10分のレビュー」でYouTube投稿可能な状態にすること。
録画終了から投稿準備完了まで:目標10分以内
自動処理: 約3〜4分 + 人間レビュー: 5〜10分 = 合計15分以内でYouTubeに出せる状態
2. さとまたちゃんの現在の構成
機材・ソフト構成
現状のワークフロー(手作業が発生する箇所)
720p / 30fps 制約について
現在のキャプチャカードはドライバの制限により720p・30fpsが上限。これは自動化設計に直接影響する問題ではないが、 エンコード時間の見積もりや、YouTubeプリセットの設定値(ビットレート・解像度)を計算する際に必ず考慮すること。 将来的に1080pへ移行した場合はエンコード時間が約2〜2.5倍に伸びる。
3. 2クリック設計の全体像
目指す状態はシンプルだ。ユーザーが意識的に押すボタンは2つだけ。それ以外はすべて自動で動く。
4. 自動化できる部分・できない部分
「全部自動化したい」という気持ちはわかるが、自動化によって品質が下がる工程が確実に存在する。 以下の表は「自動化の可否」と「その理由」を正直に整理したものだ。
| 工程 | 自動化 | 手法・補足 |
|---|---|---|
| 音声の音量正規化 | ✅ 完全自動 | YouTube標準の -14 LUFS(True Peak -1 dBTP)に統一。録画終了後即実行。事前正規化することでYouTube側の処理が安定する |
| 無音区間の自動カット | ✅ 完全自動 | 音量が −25dB 以下かつ 0.5秒以上の区間を自動カット。前後に 0.1秒のソフトニングバッファを設けて自然なカットに |
| 字幕の自動生成 | ✅ 完全自動 | faster-whisper(large-v3モデル)でGPU推論。日本語のCER(文字誤り率)は標準的な話し言葉で 10% 前後。専門用語・固有名詞は別途対応 |
| エクスポート(エンコード) | ✅ 完全自動 | SatoVideo Editorに実装済みのYouTubeプリセットをボタン1つで適用。720p・H.264・AAC設定で出力 |
| 字幕の誤認識チェック | ⚠️ 要確認 | 専門用語・人名・造語はWhisperが誤認識しやすい。5〜10分のレビューで修正する前提で設計する |
| タイトル・説明文 | ⚠️ 半自動 | 生成した字幕テキストをClaudeに渡してタイトル・説明文の下書きを生成。最終的な判断・修正は人間が行う |
| 意図的な構成変更カット | ❌ 手動 | 「この話題のこのシーンを丸ごと削除する」「順序を入れ替える」などの編集判断は人間にしかできない |
| サムネイル作成 | ❌ 手動 | Canva等で別途作成。クリック率を左右するため自動生成の品質に依存するリスクを取りたくない |
設計の考え方
完全自動化はそれ自体が目的ではない。「人間がレビューすべき部分だけ残して、それ以外はゼロにする」設計が正解だ。 上の表を見ると、自動化できる4工程はいずれも「正解が明確で判断が不要な処理」であり、手動が残る3工程はすべて「コンテンツの意図や品質に関わる判断」が含まれている。 この線引きは間違えてはいけない。
5. 処理速度とリアルタイム感
RTX 4070 SUPER での Whisper 処理速度
faster-whisper(large-v3モデル)の RTX 4070 クラスのGPUでの実測データによると、 リアルタイムファクター(RTF)は約 0.025〜0.05 前後とされている。 これは「1秒の音声を約0.03〜0.05秒で処理できる」ことを意味する。 RTX 4080 の RTF が約 0.025(40倍速)とベンチマークされており、RTX 4070 SUPER はやや下回るが同様の水準にある。
1時間動画の全工程タイムライン
「録画終了から10分以内に投稿できる状態にする」が目標の根拠
10分動画の場合、自動処理合計は約3〜4分。1時間動画でも自動処理は12分前後に収まる。 RTX 4070 SUPERはこのワークフローにおいて十分なスペックを持っており、CPUボトルネックになることはない。 この処理速度があるからこそ「録画後10分以内投稿」という目標を現実的な数字として設定できる。
6. 「橋を作る」という発想
「SatoMatashikiRecorderにWhisperを組み込む」とか「SatoVideo EditorにffmpegのUIを追加する」という発想は正しいようで間違っている。 2つのソフトが独立したまま機能追加を重ねても、分断は解消されない。 必要なのは機能の追加ではなく、2つのソフトを繋ぐ「橋」だ。
橋を構成する3つの仕組み
なぜ「ツールの説明」だけでは不十分か
「ffmpegで正規化できる」「Whisperで字幕が出る」という情報は正しい。しかしそれだけでは問題は解決しない。 必要なのは「いつ・どのタイミングで・誰が・何をトリガーにして実行するか」のフロー設計だ。 ツールの存在を知っていても、橋の設計図がなければ手作業は減らない。
実装の優先順位
7. 実装ロードマップ
- •SatoMatashikiRecorderの録画終了処理に、後処理スクリプトの呼び出しを追加する
- •音声正規化(-14 LUFS)とノイズ除去を録画直後に自動実行
- •完了後、処理済みファイルを「編集待ちフォルダ」へ移動
- •SatoVideo Editorの「AIクイック編集」ボタンに無音カット処理を接続
- •検出閾値:−25dB以下・0.5秒以上をデフォルト値とし、UIで調整可能にする
- •カット前後に0.1秒のバッファを設けて不自然な繋ぎを防ぐ
- •faster-whisper(large-v3モデル)をSatoVideo Editorから呼び出す連携を実装
- •RTX 4070 SUPERのGPUを使用してGPU推論を実行(CPUより10〜20倍高速)
- •生成した字幕はタイムライン上に表示し、修正UIから編集可能にする
- •日本語の誤認識が多い単語は「ユーザー辞書」として登録できる機能を後から追加
- •Phase 3で生成した字幕テキストをClaudeに渡し、タイトル候補・説明文・タグを自動生成
- •SatoVideo Editorの「メタデータパネル」に下書きとして表示。人間が最終確認・修正する
- •この工程は「完全自動」ではなく「下書き生成 → 人間確認」の設計を維持すること
8. 既存 wiki ページに足りなかった視点
このページを書く前に元のメモを見返したところ、4つの根本的な視点が欠落していた。以下にそのまま記録しておく。
9. 結論
動画自動化の本質は「橋を作ること」だ
優れたツールは揃っている。録画ソフトも編集ソフトも動いている。 WhisperはGPUで動く。ffmpegで正規化できる。問題はツールではない。 2つのソフトを繋ぐ「橋」——共有フォルダ・フォルダ監視・完了通知——この3つが存在しないことが問題だった。
橋を作れば、現在の手作業の大半は消える。 それ以外の手作業——字幕の誤認識チェック、構成の判断、サムネイルの確認——は自動化すべきでない。 人間がレビューすることに価値がある工程だからだ。
✅ 最適解
「2クリック + 5〜10分レビュー」
録画終了から投稿準備完了まで15分以内。完全自動ではなく、人間が判断すべき部分だけ残す設計が品質と速度を両立させる。
❌ 避けるべき方向
「完全自動化」の追求
字幕・タイトル・サムネイルを完全に自動化しようとすると品質リスクが生まれる。視聴者が見るコンテンツは人間が確認すべきだ。