🎤 思考模写シリーズ
プロの思考模写 楽器ゼロからAIでJ-Popカバーを作ってYouTubeに上げるまで
国内/海外の実例・無料/有料の全工法・JASRAC適法ルート
最終更新: 2026-05-27
¥0
ルートA: 完全ローカル無料
¥5,345
ルートB: 月額(スタンダード)
27,900
voice-models.com の声モデル数
267人
声を無断利用された日本の声優数
🎯 Section 1: 今日のゴール
このセクションの3点
① 楽器ゼロ・歌わずに既存J-Pop曲のAIカバーをYouTubeに公開する、を今日のゴールにする。
② プロは「最強AIツール」探しから入らず、A/B/Cの3ルートのうち自分の状況に合う1本を最初に決める。
③ 法律・コスト・品質の3軸を同時に最適化したい。「やってから考える」のではなく、先に決め切る。
本記事の目標は具体的にひとつだ。楽器が弾けず歌もしないあなたが、既存J-Pop曲をAIにカバーさせて、YouTubeにフル尺で公開し、AI開示ラベルもJASRAC包括契約も適切に処理した状態で「これが私のチャンネル」と言える1曲を持つ。
この目標は2026年5月時点で完全に達成可能だ。3本の異なる道筋(ルートA/B/C)があり、それぞれライセンス・必要機材・コスト・収益化可否がまったく違う。素人の最大の事故は「とにかくAIで歌わせてみる」で始めてしまい、Sunoの無料プランで作った曲を商用チャンネルに上げて規約違反、あるいは市販CDをDemucsで分離して原盤権侵害、あるいは声優の声を勝手にRVC学習してパブリシティ権侵害、というルートを踏むこと。プロは逆だ。道筋を先に1本決めてから作業に入る。
→ 次のSection 2では「素人 vs プロの思考差」を5項目で対比する。
🧠 Section 2: 素人 vs プロの思考差
このセクションの3点
① 素人は「ツール」から考え、プロは「ルート(法律+コスト+品質)」から考える。
② 素人は仮歌を「自分で歌うしかない」と思い込むが、プロは元曲分離 or Suno生成で取り出す。
③ 素人は投稿時にAI開示・Content ID対応をスキップして停止リスクを背負う。
| 観点 | 素人の発想 | プロの発想 |
|---|---|---|
| ゴール設定 | 「とりあえずAIに歌わせてみる」 | A/B/Cどのルートが自分の機材・予算・法的安全度に合うか先に決める |
| 法的判断 | 「みんなやってるから大丈夫」 | 原盤権・JASRAC包括契約・パブリシティ権の3軸を分けて理解する |
| ツール選び | 「最強AIランキング1位を入れる」 | ライセンス(MIT/Apache/CC-BY-NC)を商用可否で逆引きしてから選ぶ |
| 仮歌の作り方 | 「自分で歌うしかない」 | UVR5で元曲分離 or Sunoで仮歌生成 → それをRVCで声変換 |
| 投稿時 | AI開示しない、Content ID来たら焦って削除 | AI開示トグルON+クレジット表記+Content ID申し立ては収益分配と理解 |
「最強ツール」を探す癖がついている人ほど、最初に踏むのが MusicGenの罠だ。MetaのMusicGen(公式)はCC-BY-NC 4.0で商用不可。YouTubeに広告を表示するだけで規約違反になる。プロはこれをライセンスタグから1秒で弾く。
→ 次のSection 3で「3つのルート」の全体マップを示す。
🗺️ Section 3: 全体マップ — AIカバーの3つのルート
このセクションの3点
① ルートA: 完全ローカル無料(Applio+UVR5+Cakewalk Sonar)、初期投資はGPU 8GB以上のPC。
② ルートB: クラウド最速(Suno Pro+Kits.AI+RunPod従量)、月額5,000円台で1曲5時間。
③ ルートC: JASRAC完全適法(Synthesizer V Pro+自作オケ)、初期13,200円で原盤権ゼロ。
| ルート | 月額コスト | 初期投資 | 法的安全度 | 適性 |
|---|---|---|---|---|
| A: 完全ローカル無料 | ¥0(電気代のみ) | RTX 3060 12GB級PC(中古5-8万円〜) | 中(声モデル選定とオケ調達次第) | GPU所有、Blender派、時間がある人 |
| B: クラウド最速 | ¥2,000〜33,000 | なし(即日開始可) | 中〜高(サービス規約次第) | GPUなし、時短優先、まず試したい人 |
| C: JASRAC完全適法 | ¥0〜(DB追加買い切り) | Synth V Pro 13,200円〜 | ★★★★★(収益化フル可) | 商用化・長期運用、収益化したい人 |
プロは「3ルートのどれを今日のあなたが取るべきか」を、所有GPU・予算・将来の商用化意欲の3点で即決する。GPUが無いなら Aは不可、月額予算ゼロなら Bは不可、いずれ収益化したいなら Aと Bは原盤権で詰む可能性があるから Cが安全、というように。
→ 次のSection 4で「6ステップの標準パイプライン」を解剖する。
⚙️ Section 4: 標準パイプライン6ステップ解剖
このセクションの3点
① どのルートも基本パイプラインは同じ6ステップ。原曲入手 → 分離 → 仮歌 → 声変換 → ミックス → 投稿。
② 仮歌は「自分で歌う」一択ではない。Sunoで生成、UVR5で元曲のボーカルを抜き出す等、4通りある。
③ ステップ⑥のYouTube投稿で AI開示トグル を必ずONにする(2024年3月から義務化)。
- 1
Step 1: 原曲入手
カバーしたい曲のオーディオを用意
CDリッピング or サブスク音源を私的利用範囲で取得。プロはここで 「公開時にこのオケをそのまま使うかどうか」 を分岐させる。自作オケで差し替える予定なら、原曲は仮歌取り出し用の参照に過ぎない。
- 2
Step 2: ボーカル/インスト分離
UVR5でステム分離
UVR5(GitHub, MIT)でMDX-Net→Demucs v4の2段階分離。GTX 1060 6GB以上推奨、CPUでも動くが時間がかかる。プロは「ボーカル明瞭ならMDX、ハモり多いならVR Architecture」と曲ごとにモデルを切り替える。
- 3
Step 3: 仮歌の確保
4つの選択肢
① 元曲のボーカルそのまま(品質最高、原盤権リスクあり)、② Sunoで仮歌生成→RVC変換(楽器ゼロ向け本命)、③ ApplioのTTS+RVC(発声平坦)、④ 自分でハミング。楽器ゼロ・歌わない条件なら①か②。
- 4
Step 4: 声変換(推論)
Applioで .pth + .index を読み込み変換
Applio v3.6.2(applio.org, MIT)が現在の主流GUI。VRAM 4GBで推論可。学習は6GB以上推奨。1曲3〜5分。声モデルは voice-models.com(27,900件超)から拾うか自作する。
- 5
Step 5: ミックス&マスタリング
Cakewalk Sonar(完全無料)でEQ・コンプ・空間系
2025年6月に再び無料化したCakewalk Sonar(公式)が最強コスパ。無制限トラック+VST3+ARA+VocalSync。Windows専用。最低: ボーカルにEQ(中低域カット)+コンプ+リバーブを軽く。
- 6
Step 6: YouTube投稿
AI開示トグル+説明欄にライセンス情報
2024年3月からYouTubeはAI/改変コンテンツの開示を義務化。アップロード時の「改変または合成されたコンテンツ」トグルを必ずON。Content ID申し立てが来ても削除する必要はない(JASRAC公式FAQ参照)。
→ 次のSection 5では海外シーンの実態を「数字」で見る。
🌍 Section 5: 海外シーンの実態
このセクションの3点
① 海外の司令塔は AI Hub Discord(20,000件超のRVCモデル)と voice-models.com(27,900モデル)。
② 主流ツールは Applio(RVCの後継GUI、v3.6.2 / 2026年3月)に集約された。So-VITS-SVCはほぼ移行済み。
③ Suno・Udioは2024年に RIAA訴訟。Udioは2025年11月にUMG/Warnerと和解。サービスは継続中。
700K+
AI Hub Discord メンバー
27,900
voice-models.com 声モデル
$8
Suno Pro 月額(年払い$6)
$0.69/h
RunPod RTX 4090時間料金
主要拠点の現状
| 拠点 | 役割 | URL | 状態 |
|---|---|---|---|
| AI Hub Discord | 司令塔・モデル共有・テクサポ | docs.aihub.gg | 現役。2026/4にvanity URL乗っ取り被害(注意) |
| voice-models.com | RVCモデルアーカイブ | voice-models.com | 現役、27,900件超 |
| weights.gg | かつてのRVC共有大手 | weights.com | 2025-2026にOpenAIが買収後廃止 |
| Applio | RVC後継GUI(MIT) | applio.org | v3.6.2(2026年3月)、最もアクティブ |
| Jammable | GPU不要オンライン完結 | jammable.com | ¥1,300/月〜、50,000モデル内蔵 |
代表的なクリエイター
- Schmoyoho: バイデン×オバマがIce Spice "Boy's a Liar Pt.2" を歌うAIカバーで210万再生(2024)。AI音声変換+コメディ演出の融合型。
- ardha27: GitHubで AICoverGen 派生のフルパイプラインColabを公開。YouTube DL→分離→学習→推論まで1ノートで完結。GPUなし勢の海外定番。
- @AI_Covers_RVC(YouTube): RVC技術前面のAIカバー専門チャンネル。
著作権・訴訟状況
2024年6月、米国レコード協会(RIAA)が Suno と Udio を提訴。Udioは2025年11月にUMG/Warner Musicと和解(条件非公開)。サービスは継続運営中だが、将来的なライセンス変更リスクは織り込んでおく必要がある。YouTubeは2024年9月に合成歌唱識別技術の開発を発表、2025年前半に試験導入された。
→ 次のSection 6では国内シーンの実態を見る(JASRACの取り扱いが大幅に違う)。
🇯🇵 Section 6: 国内シーンの実態
このセクションの3点
① 国内は2系統に分かれる。RVC系(グレー)と歌声合成ソフト系(完全合法)。後者の代表が Synthesizer V / CeVIO AI / NEUTRINO。
② YouTubeとJASRAC・NexToneは 包括契約済。個人がカバー曲を投稿するときJASRAC個別手続きは不要。
③ 日本俳優連合の2024年11月調査で 267人 の声優・俳優の声が無断でAIカバーに使われていたことが確認されている。
合成歌声ソフト(完全合法ルート)の主要4本
| ソフト | 価格 | 商用利用 | 特徴 |
|---|---|---|---|
| Synthesizer V Studio 2 Pro | エディター 13,200円+DB別途(4,400-11,000円) | ◯ Pro版で商用権付与 | 2025年3月リリース。主要DB:琴葉茜/葵、小春六花、重音テト等。公式 |
| CeVIO AI | エディター+DB 5,500-9,900円程度 | ◯ 個人YouTube広告収益は無料(公式) | スパチャ・メンバーシップもOK。クレジット表記必須 |
| NEUTRINO | 無償 | 条件付き◯(キャラ別) | 東北きりたん・ずんだもんは商用OK。公式 |
| VOCALOID6 | パッケージ 23,100円〜 | ◯ ヤマハ製付属DBは特別許諾不要(公式FAQ) | VOCALOID:AIエンジン(2022年10月〜) |
代表的なクリエイター
- aoaicreate(公式): TikTok・YouTubeで SNSフォロワー約7万人(2024年1月時点)。RVCで自作モデルを学習。アニメ/ソシャゲキャラの声でJ-Popカバーを制作。noteで有料記事¥2,000を販売。
- 合成歌声ソフト系: ニコニコ動画の「VOCALOID」「歌声合成」タグで多数の個人クリエイターが活動。原盤権リスクなしで自作オケ+合成歌声のJ-Popカバーを継続的に投稿しているプレイヤーが多い。
注意: グレー〜アウト事例
市販CDのオケをそのまま使う/有名歌手・声優の声をRVC学習させて勝手に使う、はパブリシティ権・著作隣接権の侵害リスクが高い。日本俳優連合は2024年11月、267人の声優・俳優の声が無断AIカバーで使われていたと公表。三団体共同で「本人許諾なくAI学習・利用しないこと」を業界に要求している。
→ 次のSection 7では「ルートA: 完全ローカル無料」を実装レベルで解剖する。
💻 Section 7: ルートA — 完全ローカル無料パイプライン
このセクションの3点
① Applio(MIT) + UVR5(MIT) + Cakewalk Sonar(無料) の3点セットで月額ゼロ円が成立する。
② 推論だけならVRAM 4GBで動く。自作モデル学習は8GB以上推奨(RTX 3060 12GBが実用標準)。
③ 「Blenderみたいに個人がフリーソフトで完結する」のはAIカバー領域でも2026年に実現済み。
スタックの3点セット
| 役割 | ツール | ライセンス | 必要VRAM |
|---|---|---|---|
| ステム分離 | UVR5 | MIT | 6GB推奨(CPU可) |
| 声変換 | Applio v3.6.2 | MIT | 推論4GB / 学習8GB |
| ミックス | Cakewalk Sonar | 無料(BandLabアカウント必要) | CPUのみ |
| 伴奏生成(任意) | YuE | Apache 2.0(商用◯) | 24GB(30秒生成) |
| 伴奏生成(任意) | Stable Audio Open | Stability AI Community(商用◯) | 8GB |
VRAM別の現実評価
| VRAM | 代表GPU | できる作業 | できない作業 |
|---|---|---|---|
| 4GB | GTX 1650 | UVR5分離、RVC推論、Demucs 4ステム | 声モデル学習、MusicGen medium |
| 8GB | RTX 3070 / 4060 Ti | 上記+RVC短時間学習、Stable Audio Open、MusicGen small | YuEフルソング |
| 12GB | RTX 3060 / 4070 | 上記+RVC標準学習、DDSP-SVC学習、MusicGen medium | YuEフルソング |
| 24GB | RTX 4090 / 3090 | 上記+YuE 30秒生成、長時間学習 | YuEフルソング(80GB必要) |
自作モデル学習の所要時間
音声データ10-30分、推奨200-400エポック。RTX 3060で45-60分、RTX 4090で15-20分(Applio公式)。学習時のVRAMはbatch_sizeを下げれば6GBでも動く。
注意: 商用不可のオープンソース
MetaのMusicGen はCC-BY-NC 4.0で YouTube収益化と相性が悪い。広告表示時点で商用利用扱いになる。伴奏生成にはYuE(Apache 2.0)かStable Audio Open(Stability AI Community License)を選ぶこと。
→ 次のSection 8では「ルートB: クラウド最速」を月額・1曲コスト単位で見る。
☁️ Section 8: ルートB — クラウド最速パイプライン
このセクションの3点
① Suno Pro($8/月) + Kits.AI Starter($10/月) + RunPod従量 でGPUゼロでも当日制作可。
② Suno Pro/Premier は規約で「Sunoが出力物の著作権をユーザーに譲渡」と明記、商用化可能。
③ Mubertは Content ID 非対応 + ストリーミング単独リリース不可なのでカバー曲の配信には不適。
主要サブスクの月額比較
| サービス | プラン | 月額 | 商用 | 出典 |
|---|---|---|---|---|
| Suno | Pro / Premier | $8(年$6) / $24(年$18) | ◯ | 公式 |
| Udio | Standard / Pro | $10 / $30 | Pro◯ | 公式 |
| Kits.AI | Starter / Producer | $10(年$8) / $30(年$24) | Producer◯ | 公式 |
| ElevenLabs | Starter / Creator / Pro | $6 / $11 / $99 | ◯(Starter以上) | 公式 |
| Soundraw(円建) | Creator / Artist Unlimited | ¥1,072 / ¥3,185(年払い) | ◯(配信OK、ロイヤリティ100%) | 公式 |
| AIVA | Standard / Pro | €11(年€9) / €33(年€22) | Pro◯(無制限) | 公式 |
| Jammable(円建) | Basic / Creator | ¥1,300 / ¥3,700 | ◯ | 公式 |
クラウドGPU時間課金
| サービス | RTX 4090 | A100 80GB | H100 80GB |
|---|---|---|---|
| RunPod | $0.69/h | $1.39/h | $2.89/h |
| Vast.ai | $0.40-0.60/h | $0.67/h目安 | $1.55/h目安 |
| Paperspace | - | A6000(48GB)$1.89/h | $5.95/h(or $2.24 3年予約) |
| Colab Pro / Pro+ | 月$9.99 / 月$49.99 | Pro+でA100優先割当 | - |
1曲あたりコスト試算
RunPod RTX 4090で1曲の変換にかかる時間は5-10分。1曲 = $0.69 × (5-10/60) ≒ $0.06-0.12 = 約9-18円。月100曲制作してもクラウドGPUコストは1,800円程度。圧倒的にスケールする。
→ 次のSection 9では「ルートC: JASRAC完全適法ルート」(原盤権ゼロ・収益化フル可)を見る。
⚖️ Section 9: ルートC — JASRAC完全適法パイプライン
このセクションの3点
① Synthesizer V Pro / CeVIO AI / NEUTRINO で合成歌声を使えば、声優の声・他人の歌唱を一切使わずに合法カバーが作れる。
② 自作オケ(DTM打ち込み)で伴奏を作れば 原盤権の問題は完全消滅。JASRAC包括契約だけ気にすれば良い。
③ CeVIO AIは 個人YouTube広告収益が無料。初期投資はSynth V Pro 13,200円のみで長期運用に最適。
なぜルートCが「完全適法」なのか
J-Popカバーで人が引っかかる権利は3つある。プロは3つを別軸に分けて整理する。
| 権利 | 対象 | ルートCでの扱い |
|---|---|---|
| 著作権(作詞作曲) | JASRAC/NexToneが管理 | YouTube包括契約でクリア |
| 原盤権(マスター録音) | レコード会社が管理 | 自作オケなので発生しない |
| パブリシティ権/著作隣接権 | 歌手・声優 | 合成歌声DBは正規ライセンス取得済 |
パイプライン
- 原曲のメロディ・コード進行をDominoやMuseScore、Cakewalk Sonarで打ち込む(無料)
- 歌詞をSynth V Pro / CeVIO AIに入力、ピアノロールでメロディとタイミングを当てる
- 歌声DBを選び、レンダリング(琴葉茜、小春六花、重音テト、東北きりたん等)
- Cakewalk Sonarで自作オケ+合成歌声をミックス、書き出し
- YouTubeへ。AI開示トグルON、説明欄に「歌唱: [DB名] (Synthesizer V) / 作詞作曲: [元アーティスト]」と表記
初期投資の比較
| 構成 | 初期 | 月額 | 商用利用 |
|---|---|---|---|
| Synth V Pro + DB1個 | 約17,600円(13,200+4,400) | ¥0 | ◯ 収益化フル可 |
| CeVIO AI(個人YouTube) | 5,500-9,900円 | ¥0 | ◯ 広告収益・スパチャ無料 |
| NEUTRINO + 東北きりたん | ¥0 | ¥0 | ◯ ガイドライン遵守で商用可 |
本記事の素人向け本命はNEUTRINO + 東北きりたん。初期投資ゼロ、商用OK、東北ずん子・ずんだもんと並ぶ実績ある合成歌声。慣れたらSynth V Proに移行する2段階戦略が最もコスパが高い。
→ 次のSection 10で「月額コスト3シナリオ」を完全比較する。
💰 Section 10: 月額コスト3シナリオ完全比較
このセクションの3点
① 「ライト ¥2,000 / スタンダード ¥5,345 / フル ¥33,840」がAIカバー実務での月額3階層。
② スタンダードで Suno Pro+Kits.AI+ElevenLabs+Splice の組み合わせが時間対品質で最強。
③ フル構成は月100曲以上の大量生産向け。素人は最初スタンダードから入る。
¥2,000
ライト(月20-50曲)
¥5,345
スタンダード(月100-200曲)
¥33,840
フル(事業レベル)
¥0
ルートA(電気代のみ)
ライト構成 ¥2,000(月20-50曲)
| サービス | 月額 | 役割 |
|---|---|---|
| Soundraw Creator(年払い) | ¥1,072 | BGM/伴奏生成・無制限・商用◯ |
| ElevenLabs Starter | $6(≒¥940) | 音声クローン・歌声TTS |
| 合計 | ≒¥2,012 | BGM+ナレーションの基礎構成 |
スタンダード構成 ¥5,345(月100-200曲)
| サービス | 月額 | 役割 |
|---|---|---|
| Suno Pro | $8(≒¥1,260) | 仮歌・楽曲生成 500曲/月 |
| Kits.AI Starter | $10(≒¥1,570) | AIボーカルカバー変換 無制限 |
| ElevenLabs Creator | $11(≒¥1,730) | 音声クローン・大量生成 |
| Splice Sounds | $4.99(≒¥785) | サンプル素材ロイヤリティフリー |
| 合計 | ≒¥5,345 | AIカバー実務の最適バランス |
フル構成 ¥33,840(事業レベル・月100曲+カスタムモデル学習)
| サービス | 月額 | 役割 |
|---|---|---|
| Suno Premier | $24(≒¥3,770) | 楽曲生成 2,000曲/月 |
| Kits.AI Producer | $30(≒¥4,710) | 商用ボーカル変換 無制限 |
| ElevenLabs Pro | $99(≒¥15,540) | 高品質クローン・大量 |
| RunPod RTX4090(月20h) | $13.80(≒¥2,170) | カスタムRVCモデル学習 |
| AIVA Pro | €33(≒¥5,610) | クラシック/映画音楽特化 |
| Splice Sounds(無制限) | $12.99(≒¥2,040) | サンプル無制限 |
| 合計 | ≒¥33,840 | 大量生産・複数ジャンル対応 |
→ 次のSection 11では「JASRAC・パブリシティ権」の最新ガイドラインを正確に押さえる。
📜 Section 11: JASRAC・著作権・パブリシティ権の現実
このセクションの3点
① YouTubeはJASRAC・NexToneと包括契約済。個人がカバー曲を投稿するときJASRAC個別手続きは不要。
② Content ID申し立て = 動画削除ではなく収益分配。来ても焦って削除する必要はない。
③ 文化庁(2024年3月)と日本俳優連合(2024年11月267人調査)で「声」のパブリシティ権保護が強化方向。
権利マップ(プロは3つを分けて理解)
| 行為 | 該当権利 | YouTube個人投稿での扱い |
|---|---|---|
| 楽曲を歌唱する | 演奏権(著作権法22条) | JASRAC包括契約でカバー |
| 楽曲を録音する | 録音権(21条) | JASRAC包括契約でカバー |
| 動画を公衆送信する | 送信可能化権(92条の2) | JASRAC包括契約でカバー |
| 歌詞・メロディを改変する | 翻案権(27条) | 著作権者の個別許諾が必要 |
| 市販CDの伴奏トラックをそのまま使う | 原盤権(著作隣接権) | レコード会社の個別許諾が必要 |
| 声優・歌手の声をAI学習 | パブリシティ権/著作隣接権 | 本人許諾が原則必要(2024年文化庁見解) |
Content ID申し立ての正しい理解
JASRACはYouTubeのContent IDにフィンガープリントを登録している。自作カバーをアップロードすると「著作権の申し立て」通知が来ることがある。これは動画の削除を求めるものではなく、楽曲が使われた動画の広告収益を権利者に分配するための手続き(JASRAC公式FAQ)。動画は公開のまま、収益の一部がJASRAC経由で作詞作曲者・出版社に分配される。投稿者には残分が入る。
YouTube AI開示義務化(2024年3月〜)
YouTubeは2024年3月から、AIまたは改変コンテンツの開示を義務化した(公式)。アップロード時の「改変または合成されたコンテンツ」トグルを必ずON。未開示はコンテンツ削除・アカウント停止の対象。AIカバー動画は例外なくON。
パブリシティ権の現状
内閣府「AI時代の知的財産権検討会」中間とりまとめ(2024年5月)は「声についてパブリシティ権による保護が及ぶと考えられる」と明記。ピンク・レディー事件最高裁判決(平成24年2月2日)を根拠に、声を含む「肖像等」が顧客吸引力のために商業利用された場合は違法とされる。文化庁の「AIと著作権に関する考え方について」(2024年3月15日取りまとめ)も同方向。2025-2026年は不正競争防止法改正で「声」の保護がさらに強化される見通し。
YouTubeの合成歌唱識別技術
YouTubeは2024年9月、アーティストの声を模倣したAI生成コンテンツを検出・管理する「合成歌唱識別技術」の開発を発表(Musicman)。2025年前半に試験導入。本人のみが削除申請可能で、申請後48時間以内に投稿者が対応しなければYouTubeが審査・削除する仕組み。有名歌手の声を勝手にRVC学習させて使うルートは、2026年現在「技術的にも検知される」状況になっている。
→ 次のSection 12では「12週間ロードマップ」をタイムラインで描く。
📆 Section 12: 12週間 実行ロードマップ
このセクションの3点
① 環境構築 → 分離練習 → モデル選定 → 1曲完成 → チャンネル開設 → 改善、で12週間。
② Week 8 で1曲目を公開すれば、Week 11 までに月4曲の制作ペースに乗る。
③ 「最初の1曲を出す」までを6週間以内に。完璧主義を捨ててリリースの圧倒的勝利体験を取る。
- 1
Week 1-2: ルート決定+環境構築
A/B/Cどれにするか決め切る
GPU 8GB以上ある→A、無い→B、収益化したい→C。ApplioならGitHubからzip展開、SunoならProプラン契約、Synth Vなら公式ストアでPro版購入。Windows 10/11+CUDA 11.8or12.1の動作確認。
- 2
Week 3-4: 分離&仮歌の練習
UVR5でステム分離10曲をやり倒す
MDX-NetとDemucs v4を切り替えて練習。仮歌の取り出し or Suno生成も並行。「どのモデルがどの曲調に効くか」を体感する。プロはここで失敗パターン(ハモり混入、子音つぶれ)のセンスを身につける。
- 3
Week 5-6: 声モデル選定/学習
voice-models.comから3-5モデル試聴
ルートAなら自作も視野(クリーン音声10-30分→Applio学習45-60分)。ルートCならSynth V DB選定。ここで 「肖像権・パブリシティ権がクリーンか」 を必ずチェック。
- 4
Week 7-8: 1曲目完成
フル尺の1曲をミックスまで仕上げる
Cakewalk Sonarで自作オケ+変換ボーカルをミックス。EQ(中低域カット)+コンプ(2:1, threshold-12dB)+リバーブ(プレート、20-30%)を最低限。書き出しは48kHz/24bit WAV→MP3。
- 5
Week 9: YouTubeチャンネル開設
アイコン/バナー/説明欄テンプレ準備
説明欄テンプレを作る。「歌唱: [DB名 or AIモデル名] / 作詞作曲: [元アーティスト] / 制作ツール: [Applio/Suno/Synth V等] / ※AI生成コンテンツです」を毎回貼る運用に。
- 6
Week 10: 1曲目公開
AI開示トグルON→Content ID対応
アップロード時「改変または合成されたコンテンツ」トグルON。Content ID申し立てが来ても削除しない。Studioで収益分配の状態を確認。
- 7
Week 11: 2曲目で工程短縮
1曲5時間以内化
UVR5バッチ処理、Applioプリセット保存、Cakewalkのテンプレ化で時間圧縮。プロは 「同じ操作を2回したら自動化を検討」 の癖を持つ。
- 8
Week 12: 月4曲ペース確立
Analytics見て改善ループ開始
視聴維持率・サムネクリック率を見て、曲調や声質の傾向を掴む。3ヶ月で「自分の勝ち筋」(声優系か洋楽カバーかオリジナル合成歌声か)を1つに絞る。
→ 次のSection 13で「素人が陥る10の罠」を予習する。
⚠️ Section 13: 素人が陥る10の罠
このセクションの3点
① 法的トラブルの9割は「ライセンス未確認」「AI開示忘れ」「原盤権無視」の3罠から発生。
② 技術的トラブルの大半はVRAM不足とCC-BY-NCの混入。事前にライセンスを表で並べて回避できる。
③ プロはチェックリストを毎回開いて作業前に確認する。記憶に頼らない。
- 1
罠 1: 市販CDの伴奏をそのまま使う
原盤権(レコード会社管理)の侵害。自作オケに差し替える。
- 2
罠 2: AI開示トグルOFFで投稿
2024年3月からYouTube義務化。未開示はアカウント停止対象。
- 3
罠 3: MusicGenを商用利用
CC-BY-NC 4.0で商用不可。YuE(Apache 2.0)かStable Audio Open(Stability AI Community License)に切り替える。
- 4
罠 4: VRAM不足で学習が止まる
batch_size下げる、CPUオフロード使う、それでもダメならRunPod RTX4090時間借り($0.69/h)に逃がす。
- 5
罠 5: CeVIO AIのクレジット表記漏れ
「CeVIO」+「キャラ名」を説明欄に必ず記載。漏れると個人広告収益無料の条件外。
- 6
罠 6: 声優・有名歌手の声を無断学習
日本俳優連合が267人の被害を公表(2024/11)。YouTube合成歌唱識別技術で2025年から検知強化。本人ライセンス済みのKits.AI Voice License Marketplaceなどを使う。
- 7
罠 7: Suno Freeで商用利用
Freeは商用不可。Pro($8/月)以上で著作権がユーザーに譲渡される。YouTubeに広告が出る時点で商用扱い。
- 8
罠 8: Mubertでカバー曲を配信
公式が「Content ID非対応・ストリーミング単独リリース不可」を明記。BGM用途のみ。配信する人は使わない。
- 9
罠 9: Content ID申し立てを削除と勘違い
申し立て=収益分配の発動。動画を削除する必要は無い(JASRAC公式FAQ)。焦って消すと過去再生数が消える。
- 10
罠 10: weights.gg 系の閉鎖済みサイトをまだ探す
weights.gg/weights.com は2025-2026年にOpenAI買収後廃止。現役はvoice-models.com(27,900モデル)とAI Hub Discord。古い情報源を使わない。
→ 最終Section 14で用語集とまとめ、本命ルート推奨を提示する。
📚 Section 14: 用語集とまとめ — 自分の最初の1曲を決める
このセクションの3点
① 「楽器ゼロ・歌わない・収益化したい」素人の本命は ルートC(NEUTRINO + 東北きりたん → Synth V Pro)。
② 法的安全度が最高で初期投資ゼロ、長期運用に最適。Week 1で東北きりたんDB読み込んで触ってみる。
③ 「実験したい・GPU所有」ならルートA、「とにかく今すぐ作りたい」ならルートB を併走するのが理想。
用語集
| 用語 | 意味 |
|---|---|
| RVC | Retrieval-based Voice Conversion。MIT。ある音声を別の声に変換するOSS。 |
| Applio | RVC後継GUI。MIT。2026年現在最もアクティブ。v3.6.2。 |
| .pth / .index | RVCの声モデルファイル。.pthが本体、.indexがアクセントパターン。 |
| UVR5 | Ultimate Vocal Remover。MIT。ボーカル/インスト分離のデファクトGUI。 |
| Demucs / MDX-Net | UVR5の主力分離モデル。Meta製/コミュニティ製。 |
| DAW | Digital Audio Workstation。Cakewalk Sonar / Ardour / Reaper等。 |
| Stem | 楽曲を構成する個別トラック(ボーカル/ドラム/ベース等)。 |
| JASRAC / NexTone | 音楽著作権管理団体。YouTubeと包括契約済。 |
| 原盤権 | マスター録音の著作隣接権。レコード会社が管理。包括契約の対象外。 |
| パブリシティ権 | 著名人の声・肖像が顧客吸引力を持つ場合の保護権利。 |
| Content ID | YouTubeのフィンガープリント自動照合。申し立て=収益分配の発動。 |
| Synthesizer V / CeVIO AI / NEUTRINO | 日本の合成歌声ソフト。正規ライセンスで完全合法カバーが可能。 |
| Suno / Udio / Kits.AI | AI音楽/カバー生成クラウドサービス。Pro以上で商用可。 |
本命ルート推奨(素人が今日から始めるなら)
NEUTRINO(無料) + 東北きりたん(無償商用OK) + Cakewalk Sonar(無料) + 自作オケ(Domino無料) で始める。コスト¥0、法的安全度★★★★★、商用フル可。1曲目を出してから Synth V Pro 13,200円を買い足すと、声の幅が一気に広がる。GPU所有派ならルートA(Applio+UVR5+Cakewalk)を並行で実験、急ぐ日はSuno Pro($8)を時短ツールに使う。
投稿時テンプレ(コピペ用)
【AI生成コンテンツ/AI Generated】 楽曲: [原曲タイトル] / 作詞作曲: [元アーティスト名] 歌唱: [合成歌声DB名] (Synthesizer V / CeVIO AI / NEUTRINO 等) 伴奏: 自作オケ(DAW: Cakewalk Sonar) ※本動画は合成歌声と自作伴奏で制作されたカバーです。 ※楽曲の権利は原権利者に帰属します。JASRAC包括契約に基づく投稿です。
最後にひとつ。「Blenderみたいに個人がフリーソフトで完結する」というあなたの希望は、AIカバー領域では2026年に実現済みだ。UVR5 + Applio + Cakewalk Sonar の3本立ては全部MIT/無料で、商用利用も法的安全度も歴史ある3Dスタックに匹敵する。声モデル選定と原盤権の2点を間違えなければ、月¥0で月4曲ペースまで到達できる。今日のWeek 1は 東北きりたんDBをダウンロードして1音鳴らしてみる から始めよう。