ACE-Step 1.5 XL完全ガイド｜ComfyUI対応AI音楽生成の使い方

📝 本記事にはアフィリエイトリンクが含まれています。

要約

ACE-Step 1.5 XLは、4Bパラメータの拡散モデルを採用した商用グレードのAI音楽生成モデルです。

音質がSuno v4.5〜v5レベル：前世代の2Bから4Bにスケールアップし、明らかに音が厚くなった
3つのモデル：創造性重視のxl-base、音質最優先のxl-sft、8ステップで爆速のxl-turbo
RTX 3090で10秒以内：A100なら1曲2秒以下という驚異的な生成速度
MIT商用ライセンス：商用利用OK、BOOTH販売や同人作品への使用も可能
1,000種類以上の楽器・50以上の言語に対応

この記事では、モデルの使い分けからプロンプトの組み立て方、3つのモデルの生成サンプル比較、ローカル環境での動かし方とRunPodでのクラウド実行まで実用的に解説します。

はじめに

2025年にリリースされたACE-Stepが大きな注目を集めましたが、その1.5 XLバージョンが登場しました。

前世代のACE-Stepは2Bパラメータでしたが、1.5 XLでは4Bパラメータに拡大。公式評価ではSunoのv4.5からv5の間に位置するとされており、オープンソースモデルとしてはトップクラスの音質を実現しています。

モチベル

ACE-Step 1.5 XLって、前のバージョンと何が違うの？

クーラット

一番大きいのはパラメータ数が2倍になったこと。音が明らかに厚くなって、商用グレードと呼べるレベルになったよ。しかもMITライセンスだから商用利用もOK

ComfyUIの開発チームも公式ブログで取り上げており、ComfyUIとの連携も公式にサポートされています。ComfyUIの基本的な使い方についてはComfyUI初心者ガイドを参照してください。

自分は音楽の素人ですが、実際に生成してみて心動かされる曲だと感じました。クオリティの基準は人それぞれですが、まずは試してみる価値はあると思います。

ACE-Step 1.5 XLとは

ACE-Step 1.5 XLは、Diffusion Transformerアーキテクチャを採用したAI音楽生成モデルです。

項目	内容
パラメータ数	4B（前世代比2倍）
ライセンス	MIT商用ライセンス（商用利用OK）
対応楽器	1,000種類以上
対応言語	50言語以上
生成速度	RTX 3090で10秒以内 / A100で2秒以下

旧版（ACE-Step 1.0）との違い

前世代のACE-Stepと比べて以下の点が改善されています。

音の厚みと解像度：4Bパラメータの恩恵で音声がよりリッチになった
多様な楽器対応：1,000種類以上の楽器スタイルを学習済み
多言語歌詞：日本語を含む50以上の言語で歌詞生成が可能
モデルの多様化：用途に合わせてbase/sft/turboを選択できる

モチベル

日本語の歌詞も生成できるんだ！

クーラット

そう。50言語以上に対応してるから、日本語歌詞を入れると日本語で歌ってくれるよ。発音の自然さはプロンプトの書き方次第だけどね

MIT商用ライセンスで商用利用OK

重要なのがMIT商用ライセンスで公開されている点。法的に準拠したデータで学習されており、生成した音楽をYouTubeや同人作品、商業プロジェクトに使っても問題ありません。ただし、利用する際は各プラットフォームのAIコンテンツポリシーも合わせて確認してください。

3つのモデルの使い分け

ACE-Step 1.5 XLには3つのモデルがあり、用途によって使い分けます。

xl-base：創造性重視

最も汎用性が高く、バリエーション豊かな出力が得られます。プロンプトから大胆に解釈して生成するため、意外性のある楽曲が生まれやすいです。

向いている用途： 試行錯誤・ジャンルの探索・独創的な楽曲制作

xl-sft：音質最優先

SFT（教師ありファインチューニング）を経たモデルで、最も安定した音質を提供します。プロンプト通りの出力が得られやすく、指示に素直です。

向いている用途： 品質重視の最終出力・プロンプト通りの結果が欲しいとき

xl-turbo：8ステップで爆速生成

通常50ステップのところを8ステップで生成するため、生成時間が約6分の1に短縮されます。CFG（Classifier-Free Guidance）なしで動作します。

向いている用途： プロンプトの方向性確認・大量試作・時間重視

モデル	ステップ数	速度	向いている用途
xl-base	50	普通	探索・試行錯誤
xl-sft	50	普通	品質重視の最終出力
xl-turbo	8	約6倍速	高速プロトタイピング

最初はxl-turboから始めよう

プロンプトの方向性確認はxl-turboで素早く試してから、気に入ったら同じプロンプトでxl-sftやxl-baseで最終出力するのが効率的です。

プロンプトの組み立て方

ACE-Step 1.5 XLのプロンプトはCaption（タグ）とLyrics（歌詞）の2つで構成されます。この2つを正しく書けると、イメージ通りの楽曲に一気に近づきます。

Caption（タグ）の書き方

Captionは音楽全体のスタイルや雰囲気を指定する部分です。単一の要素だけでなく、複数の次元を組み合わせるのがコツです。

指定できる主な次元：

次元	例
ジャンル/スタイル	`pop`, `rock`, `jazz`, `lo-fi`
感情/雰囲気	`melancholic`, `uplifting`, `dreamy`
楽器	`acoustic guitar`, `piano`, `synthesizer`
音色	`warm`, `bright`, `crisp`, `dark`
時代感	`80s synth-pop`, `90s R&B`
ボーカル特性	`female vocal`, `raspy`, `soft`

悪い例（単一次元で曖昧）：

pop music

良い例（複数次元を組み合わせ）：

uplifting J-pop, piano and strings, female vocal, warm and bright tone, 2010s style

モチベル

英語で書かないといけないの？

クーラット

Captionは英語の方が精度が高いよ。Lyricsは日本語でもOKだけど、Captionで言語スタイルを指定するとより自然な結果になる

Lyrics（歌詞）と構造タグ

Lyricsは楽曲の「時間的な設計図」として機能します。構造タグで各セクションの役割を指定します。

主要な構造タグ：

[Intro]       イントロ
[Verse]       Aメロ・Bメロ
[Pre-Chorus]  サビ前
[Chorus]      サビ
[Bridge]      ブリッジ
[Outro]       アウトロ
[Instrumental] 間奏（演奏のみ）
[Guitar Solo]  ギターソロ
[Build]       盛り上がり
[Drop]        EDM系のドロップ

実際の歌詞例（日本語）：

[Intro]

[Verse]
朝の光の中で
夢を追いかける君
どこまでも続く道
一緒に歩いていこう

[Chorus]
空に向かって叫ぼう
この想いを届けたい
何度転んでも
また立ち上がれるから

[Outro]

注意点：タグの重ね合わせは逆効果

[Chorus - anthemic - high energy] のように修飾子を重ねすぎると、モデルが混乱して品質が落ちます。シンプルに書いた方が意図通りの結果になりやすいです。

また、1行あたり6〜10音節を目安にすると、リズムが自然になります。行によって音節数が大きく変わると、歌のリズムが崩れることがあります。

CaptionとLyricsを一致させる

モデルはCaptionとLyricsの矛盾を解決するのが得意ではありません。例えばCaptionでacoustic guitarを指定しているのに、Lyricsの雰囲気がEDM的な構成になっていると品質が低下します。

両者のジャンル・雰囲気・楽器指定を揃えることで、イメージ通りの出力に近づきます。

3つのモデルで聴き比べ：同じプロンプトで比較

実際に同じプロンプト・歌詞をxl-turbo / xl-sft / xl-baseで生成して比較しました。

使用したプロンプト・設定値を見る

Caption（共通）：

melancholic J-pop, acoustic guitar and piano, warm female vocal, soft and emotional, 2010s Japanese pop style

Lyrics（共通）：

[Intro]

[Verse]
窓の外に広がる夕焼け
あなたのことを思い出す
遠くなってしまった日々も
心の中で生き続ける

[Chorus]
さよならを言えなかった
あの夜の星は今も輝いて
消えない想いを抱えながら
ひとり歩き続けてゆく

[Instrumental]

[Verse]
季節が変わるたびに
あなたの声が聞こえる気がして
追いかけても届かない
それでもまだ信じていたい

[Chorus]
さよならを言えなかった
あの夜の星は今も輝いて
消えない想いを抱えながら
ひとり歩き続けてゆく

[Outro]

設定値（共通）：

項目	値
seed	156680208700286
duration	120秒
bpm	72
timesignature	4
language	ja
keyscale	E minor
temperature	0.85
top_p	0.90
top_k	0
min_p	0.000

モデル別設定：

モデル	steps	cfg
xl-turbo	8	1
xl-sft	50	7.0
xl-base	50	7.0

xl-base

xl-base 生成サンプル

創造性重視。同じプロンプトでも解釈に幅が出やすい

xl-sft

xl-sft 生成サンプル

音質最優先。プロンプト通りの安定した出力

xl-turbo

xl-turbo 生成サンプル

8ステップ高速生成。方向性確認に最適

モチベル

xl-turboは他の2つと結構雰囲気が変わるね

クーラット

stepが8でcfgも違うから当然かな。base・sftはそこまで大きく変わらないけど、細かい音の出方が端々で違う感じがする。方向性を掴むのにturbo、最終出力はsftかbaseって使い分けるのが良さそう

ComfyUIでAI音楽生成する方法

ACE-Step 1.5 XLはComfyUIの最新版に標準対応しており、無料で使い始めることができます。テンプレートを選ぶだけで使えます。

必要なVRAM

構成	必要VRAM	備考
xl-turbo + 0.6B LM	8GB	低リソース向け
xl-turbo + 1.7B LM	12GB	推奨構成
xl-sft / xl-base + 1.7B LM	12GB以上	高品質重視

RTX 3060（12GB）以上あれば推奨構成で動作します。RTX 4070以上なら快適に使えます。

同じプロンプト・120秒曲で実際に生成した参考時間です（2回計測の平均）。

モデル	RTX 3070 8GB（ローカル）	RTX 4090 24GB（RunPod）
xl-turbo	初回 381秒 / 2回目 26秒	初回 6.28秒 / 2回目 6.32秒
xl-sft	初回 440秒 / 2回目 80秒	初回 19.10秒 / 2回目 18.89秒
xl-base	初回 433秒 / 2回目 95秒	初回 30.93秒 / 2回目 18.77秒

VRAMによって速度差が大きく変わる

RTX 3070（8GB）はCPUオフロードが発生するため初回が特に遅く、turboとsft/baseの速度差もほぼ出ません。RTX 4090（24GB）ではモデル全体がVRAMに収まるためturboが安定して約6秒、sft/baseが約19秒とステップ数の差がそのまま速度差に現れます。試行錯誤を重ねるならRunPodでVRAMに余裕を持たせるのが効率的です。

起動手順

ComfyUIを最新版に更新する

ComfyUIのメニューから「Manager」→「Update ComfyUI」を実行して最新版にします。ComfyUIのインストールがまだの方はComfyUIインストールガイドを先に確認してください。

テンプレートで「ACE Step」を検索する

左メニューの「Templates」アイコンをクリックしてパネルを開き、検索欄にACE Stepと入力します。xl-base / xl-turbo / xl-sft それぞれのワークフローが表示されます。

ComfyUIのTemplatesパネルでACE Stepを検索した画面 — 左メニューの Templates から「ACE Step」を検索するとモデルごとのワークフローが表示される

ワークフローを選択してモデルをダウンロード

使いたいモデルのワークフローを選ぶと、必要なモデルのダウンロードガイドが表示されます。案内に従ってダウンロードします。初回は10GB以上あるため時間がかかります。

手動でダウンロードする場合は以下のファイルをHuggingFaceから取得し、指定のフォルダに配置してください。

モデルファイルのダウンロード先と配置場所

Diffusion Model（モデルから1つ選ぶ）

ファイル	リンク	配置先
xl-base	acestep_v1.5_xl_base_bf16.safetensors	`ComfyUI/models/diffusion_models/`
xl-sft	acestep_v1.5_xl_sft_bf16.safetensors	`ComfyUI/models/diffusion_models/`
xl-turbo	acestep_v1.5_xl_turbo_bf16.safetensors	`ComfyUI/models/diffusion_models/`