🎬 動画自動化設計書

更新日: 2026-03-31 ・カテゴリ: dev

対象環境: さとまたちゃん専用（Sony ZV-E10 + AT2020 + RTX 4070 SUPER）

1. このページの問題意識

このページはツール紹介ではありません

「Whisperが使える」「ffmpegで正規化できる」という話は他の記事に無限にある。ここではさとまたちゃんの実際の機材・ソフト・ワークフローを前提に、 「何をどういう順序で自動化するか」「何が自動で何が手動か」を設計書として書く。ソースコードもコマンド例も出てこない。

現状の核心的な問題

さとまたちゃんには既に2つの独自ソフトが存在する。SatoMatashikiRecorder（録画担当）とSatoVideo Editor（編集担当）だ。どちらも実装済みで動いている。しかし、この2つのソフトは現在「完全に分断されて」いる。録画が終わったら、ファイルをエクスプローラーで探して、手動で編集ソフトに読み込ませる。そこに何分もかかっている。

🎥

SatoMatashikiRecorder

録画・停止まで対応

⚡

ここに「橋」がない

手作業が発生

✂️

SatoVideo Editor

カット・テキスト・YouTube出力対応

現実的なゴール設定

「完全自動化」は理想だが、品質管理を捨てることになる。字幕の誤認識チェック、意図的な構成変更、サムネイルの最終確認——これらは人間が判断すべき作業だ。目標は「完全自動」ではなく、「2クリック + 5〜10分のレビュー」でYouTube投稿可能な状態にすること。

録画終了から投稿準備完了まで：目標10分以内

自動処理: 約3〜4分＋人間レビュー: 5〜10分＝合計15分以内でYouTubeに出せる状態

2. さとまたちゃんの現在の構成

機材・ソフト構成

映像系

📷

Sony ZV-E10

ミラーレスカメラ → キャプチャカード経由でPC入力

🔌

キャプチャカード

ドライバ制限により現状 720p / 30fps が上限。MP4で出力

💻

RTX 4070 SUPER

エンコード・Whisper GPU推論に使用可能

音声系

🎙️

AT2020

コンデンサーマイク。クリアな音声収録

🔊

Focusrite UM2

USBオーディオインターフェース。PCへのA/D変換担当

録画ソフト

⏺️

SatoMatashikiRecorder

独自開発。OBSではない。録画開始・停止・ファイル出力まで担当。

編集ソフト

✂️

SatoVideo Editor

独自開発GUI。カット・テキスト挿入・YouTubeプリセット実装済み。

現状のワークフロー（手作業が発生する箇所）

① SatoMatashikiRecorderで録画開始自動

② 録画終了ボタンを押す → MP4が出力フォルダに保存クリック1回

③ エクスプローラーでファイルを探す手作業

④ SatoVideo Editorを手動起動 → ファイルを読み込む手作業

⑤ 編集 → YouTubeプリセットでエクスポート半手動

720p / 30fps 制約について

現在のキャプチャカードはドライバの制限により720p・30fpsが上限。これは自動化設計に直接影響する問題ではないが、エンコード時間の見積もりや、YouTubeプリセットの設定値（ビットレート・解像度）を計算する際に必ず考慮すること。将来的に1080pへ移行した場合はエンコード時間が約2〜2.5倍に伸びる。

3. 2クリック設計の全体像

目指す状態はシンプルだ。ユーザーが意識的に押すボタンは2つだけ。それ以外はすべて自動で動く。

CLICK 1 録画終了ボタンを押す（SatoMatashikiRecorder）ユーザーアクション

▼

音声正規化（-14 LUFS）・ノイズ除去

録画終了直後に自動実行。約15〜30秒で完了（720p・10分動画の場合）

自動

▼

「編集待ちフォルダ」へ自動移動

正規化済みのMP4を designated フォルダへ移動。元ファイルはバックアップ保持

自動

▼

SatoVideo Editorが自動起動・ファイルをロードして待機

フォルダ監視が新規ファイルを検知 → 編集ソフトを自動起動 → ファイル読み込み完了状態で待機

自動

↓

CLICK 2 「AIクイック編集」ボタンを押す（SatoVideo Editor）ユーザーアクション

▼

無音区間の自動カット

−25dB以下・0.5秒以上の無音を検出してカット。前後0.1秒のバッファを保持

自動

▼

Whisperで字幕自動生成（GPU使用）

RTX 4070 SUPERでGPU推論。10分動画で約1〜2分以内に完了。日本語精度90%以上（large-v3）

自動

▼

YouTubeプリセットで自動エクスポート → upload/ フォルダへ

設定済みのYouTubeプリセット（720p・H.264・AAC）で自動エンコード。完了ファイルをupload/へ

自動

↓

🎉

完成：YouTubeにドラッグ&ドロップするだけ

upload/ フォルダのMP4をYouTubeにドラッグ。タイトル・説明文はClaudeが字幕データから下書き生成済み（要確認）

4. 自動化できる部分・できない部分

「全部自動化したい」という気持ちはわかるが、自動化によって品質が下がる工程が確実に存在する。以下の表は「自動化の可否」と「その理由」を正直に整理したものだ。

工程	自動化	手法・補足
音声の音量正規化	✅ 完全自動	YouTube標準の -14 LUFS（True Peak -1 dBTP）に統一。録画終了後即実行。事前正規化することでYouTube側の処理が安定する
無音区間の自動カット	✅ 完全自動	音量が −25dB 以下かつ 0.5秒以上の区間を自動カット。前後に 0.1秒のソフトニングバッファを設けて自然なカットに
字幕の自動生成	✅ 完全自動	faster-whisper（large-v3モデル）でGPU推論。日本語のCER（文字誤り率）は標準的な話し言葉で 10% 前後。専門用語・固有名詞は別途対応
エクスポート（エンコード）	✅ 完全自動	SatoVideo Editorに実装済みのYouTubeプリセットをボタン1つで適用。720p・H.264・AAC設定で出力
字幕の誤認識チェック	⚠️ 要確認	専門用語・人名・造語はWhisperが誤認識しやすい。5〜10分のレビューで修正する前提で設計する
タイトル・説明文	⚠️ 半自動	生成した字幕テキストをClaudeに渡してタイトル・説明文の下書きを生成。最終的な判断・修正は人間が行う
意図的な構成変更カット	❌ 手動	「この話題のこのシーンを丸ごと削除する」「順序を入れ替える」などの編集判断は人間にしかできない
サムネイル作成	❌ 手動	Canva等で別途作成。クリック率を左右するため自動生成の品質に依存するリスクを取りたくない

設計の考え方

完全自動化はそれ自体が目的ではない。「人間がレビューすべき部分だけ残して、それ以外はゼロにする」設計が正解だ。上の表を見ると、自動化できる4工程はいずれも「正解が明確で判断が不要な処理」であり、手動が残る3工程はすべて「コンテンツの意図や品質に関わる判断」が含まれている。この線引きは間違えてはいけない。

5. 処理速度とリアルタイム感

RTX 4070 SUPER での Whisper 処理速度

faster-whisper（large-v3モデル）の RTX 4070 クラスのGPUでの実測データによると、 リアルタイムファクター（RTF）は約 0.025〜0.05 前後とされている。これは「1秒の音声を約0.03〜0.05秒で処理できる」ことを意味する。 RTX 4080 の RTF が約 0.025（40倍速）とベンチマークされており、RTX 4070 SUPER はやや下回るが同様の水準にある。

10分動画

約1〜2分

Whisper文字起こし（GPU）

30分動画

約3〜5分

Whisper文字起こし（GPU）

60分動画

約6〜12分

Whisper文字起こし（GPU）

1時間動画の全工程タイムライン

0:00

録画終了ボタン押下（クリック1）

0秒

〜2:00

音声正規化・ノイズ除去（CPU処理）

自動

〜2:10

ファイル移動 + 編集ソフト自動起動・ロード

自動

2:10

AIクイック編集ボタン押下（クリック2）

クリック1回

〜3:00

無音カット処理

自動

〜9:00

Whisper字幕生成（GPU・1時間動画）

自動

〜12:00

YouTubeプリセットでエンコード完了

自動

「録画終了から10分以内に投稿できる状態にする」が目標の根拠

10分動画の場合、自動処理合計は約3〜4分。1時間動画でも自動処理は12分前後に収まる。 RTX 4070 SUPERはこのワークフローにおいて十分なスペックを持っており、CPUボトルネックになることはない。この処理速度があるからこそ「録画後10分以内投稿」という目標を現実的な数字として設定できる。

6. 「橋を作る」という発想

「SatoMatashikiRecorderにWhisperを組み込む」とか「SatoVideo EditorにffmpegのUIを追加する」という発想は正しいようで間違っている。 2つのソフトが独立したまま機能追加を重ねても、分断は解消されない。必要なのは機能の追加ではなく、2つのソフトを繋ぐ「橋」だ。

橋を構成する3つの仕組み

📁

出力フォルダの共有

録画ソフトと編集ソフトが共通の「受け渡しフォルダ」を参照する設計。どちらのソフトにもハードコードしない。設定ファイルで共有パスを管理する。

👁️

フォルダ監視

Watchdog（Python）や watchfiles、Node.jsのfsモジュールなど複数の実装手段がある。「編集待ちフォルダ」に新規MP4が追加されたイベントをトリガーにして編集ソフトを起動する。

🔔

完了イベントの通知

「正規化完了」「字幕生成完了」「エンコード完了」などの状態を両ソフトが共有できる仕組み。 JSONやSQLiteで状態管理するシンプルな設計が適している。

なぜ「ツールの説明」だけでは不十分か

「ffmpegで正規化できる」「Whisperで字幕が出る」という情報は正しい。しかしそれだけでは問題は解決しない。必要なのは「いつ・どのタイミングで・誰が・何をトリガーにして実行するか」のフロー設計だ。ツールの存在を知っていても、橋の設計図がなければ手作業は減らない。

実装の優先順位

フォルダ共有設定の実装

理由：最もコストが低く、橋の土台になる。これなしに他の実装は成立しない

録画終了 → 音量正規化 → フォルダ移動の自動化

理由：毎回必ず発生する手作業を排除できる。インパクトが最大で実装コストは低い

フォルダ監視 → 編集ソフト自動起動

理由：②の後に実装することで「録画終了したら編集ソフトが自動で開いている」状態を実現できる

完了状態の通知・管理

理由：複数工程が並列で動くようになってから必要になる。最初は不要。後から追加する

7. 実装ロードマップ

Phase 1 録画終了 → 自動後処理 → フォルダ移動最優先・最大インパクト

•SatoMatashikiRecorderの録画終了処理に、後処理スクリプトの呼び出しを追加する
•音声正規化（-14 LUFS）とノイズ除去を録画直後に自動実行
•完了後、処理済みファイルを「編集待ちフォルダ」へ移動

理由：この1フェーズだけで「ファイル探し」と「手動移動」という毎回発生する最大の手作業が消える。投資対効果が最も高い。

Phase 2 AI自動カット（無音検出）実装

•SatoVideo Editorの「AIクイック編集」ボタンに無音カット処理を接続
•検出閾値：−25dB以下・0.5秒以上をデフォルト値とし、UIで調整可能にする
•カット前後に0.1秒のバッファを設けて不自然な繋ぎを防ぐ

Phase 3 AI字幕生成（Whisper）実装

•faster-whisper（large-v3モデル）をSatoVideo Editorから呼び出す連携を実装
•RTX 4070 SUPERのGPUを使用してGPU推論を実行（CPUより10〜20倍高速）
•生成した字幕はタイムライン上に表示し、修正UIから編集可能にする
•日本語の誤認識が多い単語は「ユーザー辞書」として登録できる機能を後から追加

Phase 4 タイトル・概要欄のAI自動生成（Claude連携）

•Phase 3で生成した字幕テキストをClaudeに渡し、タイトル候補・説明文・タグを自動生成
•SatoVideo Editorの「メタデータパネル」に下書きとして表示。人間が最終確認・修正する
•この工程は「完全自動」ではなく「下書き生成 → 人間確認」の設計を維持すること

8. 既存 wiki ページに足りなかった視点

このページを書く前に元のメモを見返したところ、4つの根本的な視点が欠落していた。以下にそのまま記録しておく。

「どのツールで録画するか」が書かれていなかった

元のページは「どう自動化するか」のツール紹介だった。しかし「そもそも何で録画するか」が定義されていなかった。 SatoMatashikiRecorderという独自ソフトが存在するなら、そこを起点に設計すべきだった。 OBSベースの情報を参照しても意味がない。

「誰が何をクリックするか」が定義されていなかった

「2クリックで完結」という目標はあったが、「クリック1が何のボタンで」「クリック2が何のボタンで」という具体的な定義がなかった。フロー図があっても操作起点が曖昧では実装の設計にならない。

720p / 30fps 制約が考慮されていなかった

キャプチャカードのドライバ制限により現状は720p・30fpsが上限という事実が、元のページには一切出てこなかった。エンコード時間・ビットレート設定・YouTube推奨設定のすべてがこの制約を前提に計算される。「4K対応」の話をしても今は意味がない。

2つのソフトが「別々のプロジェクト」として存在していた

SatoMatashikiRecorderとSatoVideo Editorはそれぞれ単独で開発・記述されていた。しかし実際のワークフローでは「録画ソフトが終わったら編集ソフトが続く」という連携が前提になる。橋を設計するという視点そのものが欠けていた。

9. 結論

動画自動化の本質は「橋を作ること」だ

優れたツールは揃っている。録画ソフトも編集ソフトも動いている。 WhisperはGPUで動く。ffmpegで正規化できる。問題はツールではない。 2つのソフトを繋ぐ「橋」——共有フォルダ・フォルダ監視・完了通知——この3つが存在しないことが問題だった。

橋を作れば、現在の手作業の大半は消える。それ以外の手作業——字幕の誤認識チェック、構成の判断、サムネイルの確認——は自動化すべきでない。人間がレビューすることに価値がある工程だからだ。

✅ 最適解

「2クリック + 5〜10分レビュー」
録画終了から投稿準備完了まで15分以内。完全自動ではなく、人間が判断すべき部分だけ残す設計が品質と速度を両立させる。

❌ 避けるべき方向

「完全自動化」の追求
字幕・タイトル・サムネイルを完全に自動化しようとすると品質リスクが生まれる。視聴者が見るコンテンツは人間が確認すべきだ。