📝 本記事にはアフィリエイトリンクが含まれています。
要約
ACE-Step 1.5 XLは、4Bパラメータの拡散モデルを採用した商用グレードのAI音楽生成モデルです。
- 音質がSuno v4.5〜v5レベル:前世代の2Bから4Bにスケールアップし、明らかに音が厚くなった
- 3つのモデル:創造性重視の
xl-base、音質最優先のxl-sft、8ステップで爆速のxl-turbo - RTX 3090で10秒以内:A100なら1曲2秒以下という驚異的な生成速度
- MIT商用ライセンス:商用利用OK、BOOTH販売や同人作品への使用も可能
- 1,000種類以上の楽器・50以上の言語に対応
この記事では、モデルの使い分けからプロンプトの組み立て方、3つのモデルの生成サンプル比較、ローカル環境での動かし方とRunPodでのクラウド実行まで実用的に解説します。
はじめに
2025年にリリースされたACE-Stepが大きな注目を集めましたが、その1.5 XLバージョンが登場しました。
前世代のACE-Stepは2Bパラメータでしたが、1.5 XLでは4Bパラメータに拡大。公式評価ではSunoのv4.5からv5の間に位置するとされており、オープンソースモデルとしてはトップクラスの音質を実現しています。
ComfyUIの開発チームも公式ブログで取り上げており、ComfyUIとの連携も公式にサポートされています。ComfyUIの基本的な使い方についてはComfyUI初心者ガイドを参照してください。
自分は音楽の素人ですが、実際に生成してみて心動かされる曲だと感じました。クオリティの基準は人それぞれですが、まずは試してみる価値はあると思います。
ACE-Step 1.5 XLとは
ACE-Step 1.5 XLは、Diffusion Transformerアーキテクチャを採用したAI音楽生成モデルです。
| 項目 | 内容 |
|---|---|
| パラメータ数 | 4B(前世代比2倍) |
| ライセンス | MIT商用ライセンス(商用利用OK) |
| 対応楽器 | 1,000種類以上 |
| 対応言語 | 50言語以上 |
| 生成速度 | RTX 3090で10秒以内 / A100で2秒以下 |
旧版(ACE-Step 1.0)との違い
前世代のACE-Stepと比べて以下の点が改善されています。
- 音の厚みと解像度:4Bパラメータの恩恵で音声がよりリッチになった
- 多様な楽器対応:1,000種類以上の楽器スタイルを学習済み
- 多言語歌詞:日本語を含む50以上の言語で歌詞生成が可能
- モデルの多様化:用途に合わせてbase/sft/turboを選択できる
MIT商用ライセンスで商用利用OK
重要なのがMIT商用ライセンスで公開されている点。法的に準拠したデータで学習されており、生成した音楽をYouTubeや同人作品、商業プロジェクトに使っても問題ありません。ただし、利用する際は各プラットフォームのAIコンテンツポリシーも合わせて確認してください。
3つのモデルの使い分け
ACE-Step 1.5 XLには3つのモデルがあり、用途によって使い分けます。
xl-base:創造性重視
最も汎用性が高く、バリエーション豊かな出力が得られます。プロンプトから大胆に解釈して生成するため、意外性のある楽曲が生まれやすいです。
向いている用途: 試行錯誤・ジャンルの探索・独創的な楽曲制作
xl-sft:音質最優先
SFT(教師ありファインチューニング)を経たモデルで、最も安定した音質を提供します。プロンプト通りの出力が得られやすく、指示に素直です。
向いている用途: 品質重視の最終出力・プロンプト通りの結果が欲しいとき
xl-turbo:8ステップで爆速生成
通常50ステップのところを8ステップで生成するため、生成時間が約6分の1に短縮されます。CFG(Classifier-Free Guidance)なしで動作します。
向いている用途: プロンプトの方向性確認・大量試作・時間重視
| モデル | ステップ数 | 速度 | 向いている用途 |
|---|---|---|---|
| xl-base | 50 | 普通 | 探索・試行錯誤 |
| xl-sft | 50 | 普通 | 品質重視の最終出力 |
| xl-turbo | 8 | 約6倍速 | 高速プロトタイピング |
プロンプトの方向性確認はxl-turboで素早く試してから、気に入ったら同じプロンプトでxl-sftやxl-baseで最終出力するのが効率的です。
プロンプトの組み立て方
ACE-Step 1.5 XLのプロンプトはCaption(タグ)とLyrics(歌詞)の2つで構成されます。この2つを正しく書けると、イメージ通りの楽曲に一気に近づきます。
Caption(タグ)の書き方
Captionは音楽全体のスタイルや雰囲気を指定する部分です。単一の要素だけでなく、複数の次元を組み合わせるのがコツです。
指定できる主な次元:
| 次元 | 例 |
|---|---|
| ジャンル/スタイル | pop, rock, jazz, lo-fi |
| 感情/雰囲気 | melancholic, uplifting, dreamy |
| 楽器 | acoustic guitar, piano, synthesizer |
| 音色 | warm, bright, crisp, dark |
| 時代感 | 80s synth-pop, 90s R&B |
| ボーカル特性 | female vocal, raspy, soft |
悪い例(単一次元で曖昧):
pop music
良い例(複数次元を組み合わせ):
uplifting J-pop, piano and strings, female vocal, warm and bright tone, 2010s style
Lyrics(歌詞)と構造タグ
Lyricsは楽曲の「時間的な設計図」として機能します。構造タグで各セクションの役割を指定します。
主要な構造タグ:
[Intro] イントロ
[Verse] Aメロ・Bメロ
[Pre-Chorus] サビ前
[Chorus] サビ
[Bridge] ブリッジ
[Outro] アウトロ
[Instrumental] 間奏(演奏のみ)
[Guitar Solo] ギターソロ
[Build] 盛り上がり
[Drop] EDM系のドロップ
実際の歌詞例(日本語):
[Intro]
[Verse]
朝の光の中で
夢を追いかける君
どこまでも続く道
一緒に歩いていこう
[Chorus]
空に向かって叫ぼう
この想いを届けたい
何度転んでも
また立ち上がれるから
[Outro]
注意点:タグの重ね合わせは逆効果
[Chorus - anthemic - high energy] のように修飾子を重ねすぎると、モデルが混乱して品質が落ちます。シンプルに書いた方が意図通りの結果になりやすいです。
また、1行あたり6〜10音節を目安にすると、リズムが自然になります。行によって音節数が大きく変わると、歌のリズムが崩れることがあります。
CaptionとLyricsを一致させる
モデルはCaptionとLyricsの矛盾を解決するのが得意ではありません。例えばCaptionでacoustic guitarを指定しているのに、Lyricsの雰囲気がEDM的な構成になっていると品質が低下します。
両者のジャンル・雰囲気・楽器指定を揃えることで、イメージ通りの出力に近づきます。
3つのモデルで聴き比べ:同じプロンプトで比較
実際に同じプロンプト・歌詞をxl-turbo / xl-sft / xl-baseで生成して比較しました。
使用したプロンプト・設定値を見る
Caption(共通):
melancholic J-pop, acoustic guitar and piano, warm female vocal, soft and emotional, 2010s Japanese pop style
Lyrics(共通):
[Intro]
[Verse]
窓の外に広がる夕焼け
あなたのことを思い出す
遠くなってしまった日々も
心の中で生き続ける
[Chorus]
さよならを言えなかった
あの夜の星は今も輝いて
消えない想いを抱えながら
ひとり歩き続けてゆく
[Instrumental]
[Verse]
季節が変わるたびに
あなたの声が聞こえる気がして
追いかけても届かない
それでもまだ信じていたい
[Chorus]
さよならを言えなかった
あの夜の星は今も輝いて
消えない想いを抱えながら
ひとり歩き続けてゆく
[Outro]
設定値(共通):
| 項目 | 値 |
|---|---|
| seed | 156680208700286 |
| duration | 120秒 |
| bpm | 72 |
| timesignature | 4 |
| language | ja |
| keyscale | E minor |
| temperature | 0.85 |
| top_p | 0.90 |
| top_k | 0 |
| min_p | 0.000 |
モデル別設定:
| モデル | steps | cfg |
|---|---|---|
| xl-turbo | 8 | 1 |
| xl-sft | 50 | 7.0 |
| xl-base | 50 | 7.0 |
xl-base
創造性重視。同じプロンプトでも解釈に幅が出やすい
xl-sft
音質最優先。プロンプト通りの安定した出力
xl-turbo
8ステップ高速生成。方向性確認に最適
ComfyUIでAI音楽生成する方法
ACE-Step 1.5 XLはComfyUIの最新版に標準対応しており、無料で使い始めることができます。テンプレートを選ぶだけで使えます。
必要なVRAM
| 構成 | 必要VRAM | 備考 |
|---|---|---|
| xl-turbo + 0.6B LM | 8GB | 低リソース向け |
| xl-turbo + 1.7B LM | 12GB | 推奨構成 |
| xl-sft / xl-base + 1.7B LM | 12GB以上 | 高品質重視 |
RTX 3060(12GB)以上あれば推奨構成で動作します。RTX 4070以上なら快適に使えます。
同じプロンプト・120秒曲で実際に生成した参考時間です(2回計測の平均)。
| モデル | RTX 3070 8GB(ローカル) | RTX 4090 24GB(RunPod) |
|---|---|---|
| xl-turbo | 初回 381秒 / 2回目 26秒 | 初回 6.28秒 / 2回目 6.32秒 |
| xl-sft | 初回 440秒 / 2回目 80秒 | 初回 19.10秒 / 2回目 18.89秒 |
| xl-base | 初回 433秒 / 2回目 95秒 | 初回 30.93秒 / 2回目 18.77秒 |
RTX 3070(8GB)はCPUオフロードが発生するため初回が特に遅く、turboとsft/baseの速度差もほぼ出ません。RTX 4090(24GB)ではモデル全体がVRAMに収まるためturboが安定して約6秒、sft/baseが約19秒とステップ数の差がそのまま速度差に現れます。試行錯誤を重ねるならRunPodでVRAMに余裕を持たせるのが効率的です。
起動手順
ComfyUIのメニューから「Manager」→「Update ComfyUI」を実行して最新版にします。ComfyUIのインストールがまだの方はComfyUIインストールガイドを先に確認してください。
左メニューの「Templates」アイコンをクリックしてパネルを開き、検索欄に
ACE Stepと入力します。xl-base / xl-turbo / xl-sft それぞれのワークフローが表示されます。

使いたいモデルのワークフローを選ぶと、必要なモデルのダウンロードガイドが表示されます。案内に従ってダウンロードします。初回は10GB以上あるため時間がかかります。
手動でダウンロードする場合は以下のファイルをHuggingFaceから取得し、指定のフォルダに配置してください。
Diffusion Model(モデルから1つ選ぶ)
| ファイル | リンク | 配置先 |
|---|---|---|
| xl-base | acestep_v1.5_xl_base_bf16.safetensors | ComfyUI/models/diffusion_models/ |
| xl-sft | acestep_v1.5_xl_sft_bf16.safetensors | ComfyUI/models/diffusion_models/ |
| xl-turbo | acestep_v1.5_xl_turbo_bf16.safetensors | ComfyUI/models/diffusion_models/ |
Text Encoder(2つとも必要)
| ファイル | リンク | 配置先 |
|---|---|---|
| 0.6B | qwen_0.6b_ace15.safetensors | ComfyUI/models/text_encoders/ |
| 4B | qwen_4b_ace15.safetensors | ComfyUI/models/text_encoders/ |
VAE(必須)
| ファイル | リンク | 配置先 |
|---|---|---|
| VAE | ace_1.5_vae.safetensors | ComfyUI/models/vae/ |
ワークフロー中央の「TextEncodeAceStepAudio1.5」ノードにCaptionとLyricsがまとめて入力できます。上段にスタイル指示(Caption)、下段に歌詞(Lyrics)を入力して「Run」をクリックすれば音声ファイルが生成されます。

xl-turboは8ステップで生成するため、プロンプトの方向性確認に最適です。気に入った方向性が決まったら同じプロンプトでxl-sftに切り替えて最終出力するのが効率的です。
GPUが足りない方はRunPodで
VRAM 12GB以上のGPUを持っていない場合は、クラウドGPUサービスのRunPodを使う方法があります。
RTX 4090(VRAM 24GB)が$0.69/時間から使えるため、ちょっと試してみる程度なら$1〜2で十分です。
RunPodの登録・初期設定の手順はRunPod 始め方ガイドで詳しく解説しています。
RunPodでの起動手順
RunPodでPodを起動する際、テンプレートからComfyUIを選択します。起動後はブラウザでComfyUIにアクセスし、左メニューの「Templates」アイコンからACE Stepを検索してワークフローを選ぶだけです。ローカルとまったく同じ手順で使えます。
RunPodでネットワークボリュームを使っている場合、モデルのキャッシュが次回起動時も残るため、毎回20GBをダウンロードせずに済みます。
よくある質問
MIT商用ライセンスで公開されており、法的に準拠したデータで学習されているため商用利用は可能です。YouTubeや同人作品、商業プロジェクトへの使用も問題ありません。ただし、各プラットフォームのAI生成コンテンツポリシーは別途確認してください。
はい、50言語以上に対応しているため日本語歌詞の生成が可能です。Captionで
Japanese female vocalなどのスタイルを指定すると、より自然な発音になります。最初はxl-turboでプロンプトの方向性を素早く確認するのがおすすめです。気に入った方向性が見つかったら、同じプロンプトでxl-sftを使って最終出力を生成するのが効率的な使い方です。
推奨構成はxl-turbo + 1.7B LMで12GBです。RTX 3060(12GB)以上あれば動作します。VRAMが8GBの場合は0.6B LMとの組み合わせで動作しますが、品質はやや下がります。
ComfyUIを最新版に更新して、左メニューの「Templates」から「ACE Step」を検索してワークフローを選ぶだけで使えます。
まとめ
ACE-Step 1.5 XLは、無料で使えるオープンソースのAI音楽生成モデルとして現時点でトップクラスの選択肢です。
- 4Bパラメータで商用グレードの音質を実現
- 3つのモデル(xl-base / xl-sft / xl-turbo)で用途に合わせて使い分け
- MIT商用ライセンスで商用・同人利用OK
- プロンプトはCaptionで複数次元を指定、Lyricsは構造タグで組み立てる
- VRAM 12GBあればローカルで快適に動作、足りなければRunPodで
ComfyUIで音楽生成AIを試してみたいなら、ACE-Step 1.5 XLは現時点で最有力の選択肢です。無料・商用OKのオープンソースで、ComfyUIとの連携も公式サポート済み。ぜひ試してみてください。
関連記事




コメント