ACE-Step 1.5 XL完全ガイド|ComfyUIで使えるAI音楽生成モデルの使い方・プロンプト・3つのモデル解説

生成AI

📝 本記事にはアフィリエイトリンクが含まれています。

要約

ACE-Step 1.5 XLは、4Bパラメータの拡散モデルを採用した商用グレードのAI音楽生成モデルです。

  • 音質がSuno v4.5〜v5レベル:前世代の2Bから4Bにスケールアップし、明らかに音が厚くなった
  • 3つのモデル:創造性重視のxl-base、音質最優先のxl-sft、8ステップで爆速のxl-turbo
  • RTX 3090で10秒以内:A100なら1曲2秒以下という驚異的な生成速度
  • MIT商用ライセンス:商用利用OK、BOOTH販売や同人作品への使用も可能
  • 1,000種類以上の楽器・50以上の言語に対応

この記事では、モデルの使い分けからプロンプトの組み立て方、3つのモデルの生成サンプル比較、ローカル環境での動かし方とRunPodでのクラウド実行まで実用的に解説します。

はじめに

2025年にリリースされたACE-Stepが大きな注目を集めましたが、その1.5 XLバージョンが登場しました。

前世代のACE-Stepは2Bパラメータでしたが、1.5 XLでは4Bパラメータに拡大。公式評価ではSunoのv4.5からv5の間に位置するとされており、オープンソースモデルとしてはトップクラスの音質を実現しています。

モチベル
ACE-Step 1.5 XLって、前のバージョンと何が違うの?
クーラット
一番大きいのはパラメータ数が2倍になったこと。音が明らかに厚くなって、商用グレードと呼べるレベルになったよ。しかもMITライセンスだから商用利用もOK

ComfyUIの開発チームも公式ブログで取り上げており、ComfyUIとの連携も公式にサポートされています。ComfyUIの基本的な使い方についてはComfyUI初心者ガイドを参照してください。

自分は音楽の素人ですが、実際に生成してみて心動かされる曲だと感じました。クオリティの基準は人それぞれですが、まずは試してみる価値はあると思います。

ACE-Step 1.5 XLとは

ACE-Step 1.5 XLは、Diffusion Transformerアーキテクチャを採用したAI音楽生成モデルです。

項目 内容
パラメータ数 4B(前世代比2倍)
ライセンス MIT商用ライセンス(商用利用OK)
対応楽器 1,000種類以上
対応言語 50言語以上
生成速度 RTX 3090で10秒以内 / A100で2秒以下

旧版(ACE-Step 1.0)との違い

前世代のACE-Stepと比べて以下の点が改善されています。

  • 音の厚みと解像度:4Bパラメータの恩恵で音声がよりリッチになった
  • 多様な楽器対応:1,000種類以上の楽器スタイルを学習済み
  • 多言語歌詞:日本語を含む50以上の言語で歌詞生成が可能
  • モデルの多様化:用途に合わせてbase/sft/turboを選択できる
モチベル
日本語の歌詞も生成できるんだ!
クーラット
そう。50言語以上に対応してるから、日本語歌詞を入れると日本語で歌ってくれるよ。発音の自然さはプロンプトの書き方次第だけどね

MIT商用ライセンスで商用利用OK

重要なのがMIT商用ライセンスで公開されている点。法的に準拠したデータで学習されており、生成した音楽をYouTubeや同人作品、商業プロジェクトに使っても問題ありません。ただし、利用する際は各プラットフォームのAIコンテンツポリシーも合わせて確認してください。

3つのモデルの使い分け

ACE-Step 1.5 XLには3つのモデルがあり、用途によって使い分けます。

xl-base:創造性重視

最も汎用性が高く、バリエーション豊かな出力が得られます。プロンプトから大胆に解釈して生成するため、意外性のある楽曲が生まれやすいです。

向いている用途: 試行錯誤・ジャンルの探索・独創的な楽曲制作

xl-sft:音質最優先

SFT(教師ありファインチューニング)を経たモデルで、最も安定した音質を提供します。プロンプト通りの出力が得られやすく、指示に素直です。

向いている用途: 品質重視の最終出力・プロンプト通りの結果が欲しいとき

xl-turbo:8ステップで爆速生成

通常50ステップのところを8ステップで生成するため、生成時間が約6分の1に短縮されます。CFG(Classifier-Free Guidance)なしで動作します。

向いている用途: プロンプトの方向性確認・大量試作・時間重視

モデル ステップ数 速度 向いている用途
xl-base 50 普通 探索・試行錯誤
xl-sft 50 普通 品質重視の最終出力
xl-turbo 8 約6倍速 高速プロトタイピング
最初はxl-turboから始めよう

プロンプトの方向性確認はxl-turboで素早く試してから、気に入ったら同じプロンプトでxl-sftやxl-baseで最終出力するのが効率的です。

プロンプトの組み立て方

ACE-Step 1.5 XLのプロンプトはCaption(タグ)Lyrics(歌詞)の2つで構成されます。この2つを正しく書けると、イメージ通りの楽曲に一気に近づきます。

Caption(タグ)の書き方

Captionは音楽全体のスタイルや雰囲気を指定する部分です。単一の要素だけでなく、複数の次元を組み合わせるのがコツです。

指定できる主な次元:

次元
ジャンル/スタイル pop, rock, jazz, lo-fi
感情/雰囲気 melancholic, uplifting, dreamy
楽器 acoustic guitar, piano, synthesizer
音色 warm, bright, crisp, dark
時代感 80s synth-pop, 90s R&B
ボーカル特性 female vocal, raspy, soft

悪い例(単一次元で曖昧):

pop music

良い例(複数次元を組み合わせ):

uplifting J-pop, piano and strings, female vocal, warm and bright tone, 2010s style
モチベル
英語で書かないといけないの?
クーラット
Captionは英語の方が精度が高いよ。Lyricsは日本語でもOKだけど、Captionで言語スタイルを指定するとより自然な結果になる

Lyrics(歌詞)と構造タグ

Lyricsは楽曲の「時間的な設計図」として機能します。構造タグで各セクションの役割を指定します。

主要な構造タグ:

[Intro]       イントロ
[Verse]       Aメロ・Bメロ
[Pre-Chorus]  サビ前
[Chorus]      サビ
[Bridge]      ブリッジ
[Outro]       アウトロ
[Instrumental] 間奏(演奏のみ)
[Guitar Solo]  ギターソロ
[Build]       盛り上がり
[Drop]        EDM系のドロップ

実際の歌詞例(日本語):

[Intro]

[Verse]
朝の光の中で
夢を追いかける君
どこまでも続く道
一緒に歩いていこう

[Chorus]
空に向かって叫ぼう
この想いを届けたい
何度転んでも
また立ち上がれるから

[Outro]

注意点:タグの重ね合わせは逆効果

[Chorus - anthemic - high energy] のように修飾子を重ねすぎると、モデルが混乱して品質が落ちます。シンプルに書いた方が意図通りの結果になりやすいです。

また、1行あたり6〜10音節を目安にすると、リズムが自然になります。行によって音節数が大きく変わると、歌のリズムが崩れることがあります。

CaptionとLyricsを一致させる

モデルはCaptionとLyricsの矛盾を解決するのが得意ではありません。例えばCaptionでacoustic guitarを指定しているのに、Lyricsの雰囲気がEDM的な構成になっていると品質が低下します。

両者のジャンル・雰囲気・楽器指定を揃えることで、イメージ通りの出力に近づきます。

3つのモデルで聴き比べ:同じプロンプトで比較

実際に同じプロンプト・歌詞をxl-turbo / xl-sft / xl-baseで生成して比較しました。

使用したプロンプト・設定値を見る

Caption(共通):

melancholic J-pop, acoustic guitar and piano, warm female vocal, soft and emotional, 2010s Japanese pop style

Lyrics(共通):

[Intro]

[Verse]
窓の外に広がる夕焼け
あなたのことを思い出す
遠くなってしまった日々も
心の中で生き続ける

[Chorus]
さよならを言えなかった
あの夜の星は今も輝いて
消えない想いを抱えながら
ひとり歩き続けてゆく

[Instrumental]

[Verse]
季節が変わるたびに
あなたの声が聞こえる気がして
追いかけても届かない
それでもまだ信じていたい

[Chorus]
さよならを言えなかった
あの夜の星は今も輝いて
消えない想いを抱えながら
ひとり歩き続けてゆく

[Outro]

設定値(共通):

項目
seed 156680208700286
duration 120秒
bpm 72
timesignature 4
language ja
keyscale E minor
temperature 0.85
top_p 0.90
top_k 0
min_p 0.000

モデル別設定:

モデル steps cfg
xl-turbo 8 1
xl-sft 50 7.0
xl-base 50 7.0

xl-base

xl-base 生成サンプル

創造性重視。同じプロンプトでも解釈に幅が出やすい

xl-sft

xl-sft 生成サンプル

音質最優先。プロンプト通りの安定した出力

xl-turbo

xl-turbo 生成サンプル

8ステップ高速生成。方向性確認に最適

モチベル
xl-turboは他の2つと結構雰囲気が変わるね
クーラット
stepが8でcfgも違うから当然かな。base・sftはそこまで大きく変わらないけど、細かい音の出方が端々で違う感じがする。方向性を掴むのにturbo、最終出力はsftかbaseって使い分けるのが良さそう

ComfyUIでAI音楽生成する方法

ACE-Step 1.5 XLはComfyUIの最新版に標準対応しており、無料で使い始めることができます。テンプレートを選ぶだけで使えます。

必要なVRAM

構成 必要VRAM 備考
xl-turbo + 0.6B LM 8GB 低リソース向け
xl-turbo + 1.7B LM 12GB 推奨構成
xl-sft / xl-base + 1.7B LM 12GB以上 高品質重視

RTX 3060(12GB)以上あれば推奨構成で動作します。RTX 4070以上なら快適に使えます。

同じプロンプト・120秒曲で実際に生成した参考時間です(2回計測の平均)。

モデル RTX 3070 8GB(ローカル) RTX 4090 24GB(RunPod)
xl-turbo 初回 381秒 / 2回目 26秒 初回 6.28秒 / 2回目 6.32秒
xl-sft 初回 440秒 / 2回目 80秒 初回 19.10秒 / 2回目 18.89秒
xl-base 初回 433秒 / 2回目 95秒 初回 30.93秒 / 2回目 18.77秒
VRAMによって速度差が大きく変わる

RTX 3070(8GB)はCPUオフロードが発生するため初回が特に遅く、turboとsft/baseの速度差もほぼ出ません。RTX 4090(24GB)ではモデル全体がVRAMに収まるためturboが安定して約6秒、sft/baseが約19秒とステップ数の差がそのまま速度差に現れます。試行錯誤を重ねるならRunPodでVRAMに余裕を持たせるのが効率的です。

起動手順

1
ComfyUIを最新版に更新する

ComfyUIのメニューから「Manager」→「Update ComfyUI」を実行して最新版にします。ComfyUIのインストールがまだの方はComfyUIインストールガイドを先に確認してください。

2
テンプレートで「ACE Step」を検索する

左メニューの「Templates」アイコンをクリックしてパネルを開き、検索欄にACE Stepと入力します。xl-base / xl-turbo / xl-sft それぞれのワークフローが表示されます。

ComfyUIのTemplatesパネルでACE Stepを検索した画面
左メニューの Templates から「ACE Step」を検索するとモデルごとのワークフローが表示される

3
ワークフローを選択してモデルをダウンロード

使いたいモデルのワークフローを選ぶと、必要なモデルのダウンロードガイドが表示されます。案内に従ってダウンロードします。初回は10GB以上あるため時間がかかります。

手動でダウンロードする場合は以下のファイルをHuggingFaceから取得し、指定のフォルダに配置してください。

モデルファイルのダウンロード先と配置場所

Diffusion Model(モデルから1つ選ぶ)

ファイル リンク 配置先
xl-base acestep_v1.5_xl_base_bf16.safetensors ComfyUI/models/diffusion_models/
xl-sft acestep_v1.5_xl_sft_bf16.safetensors ComfyUI/models/diffusion_models/
xl-turbo acestep_v1.5_xl_turbo_bf16.safetensors ComfyUI/models/diffusion_models/

Text Encoder(2つとも必要)

ファイル リンク 配置先
0.6B qwen_0.6b_ace15.safetensors ComfyUI/models/text_encoders/
4B qwen_4b_ace15.safetensors ComfyUI/models/text_encoders/

VAE(必須)

ファイル リンク 配置先
VAE ace_1.5_vae.safetensors ComfyUI/models/vae/


4
プロンプトを入力して生成

ワークフロー中央の「TextEncodeAceStepAudio1.5」ノードにCaptionとLyricsがまとめて入力できます。上段にスタイル指示(Caption)、下段に歌詞(Lyrics)を入力して「Run」をクリックすれば音声ファイルが生成されます。

ComfyUIのACE-Stepワークフロー。TextEncodeAceStepAudio1.5ノードにCaptionとLyricsをまとめて入力できる
「TextEncodeAceStepAudio1.5」ノードにCaptionとLyricsをまとめて入力できる

最初はxl-turboのテンプレートから始めよう

xl-turboは8ステップで生成するため、プロンプトの方向性確認に最適です。気に入った方向性が決まったら同じプロンプトでxl-sftに切り替えて最終出力するのが効率的です。

GPUが足りない方はRunPodで

VRAM 12GB以上のGPUを持っていない場合は、クラウドGPUサービスのRunPodを使う方法があります。

RTX 4090(VRAM 24GB)が$0.69/時間から使えるため、ちょっと試してみる程度なら$1〜2で十分です。

RTX 4090ならxl-turboで1曲6秒。$0.69/時間から試せる



紹介リンクからの登録でクレジットボーナスあり

RunPodの登録・初期設定の手順はRunPod 始め方ガイドで詳しく解説しています。

RunPodでの起動手順

RunPodでPodを起動する際、テンプレートからComfyUIを選択します。起動後はブラウザでComfyUIにアクセスし、左メニューの「Templates」アイコンからACE Stepを検索してワークフローを選ぶだけです。ローカルとまったく同じ手順で使えます。

ネットワークボリュームでDL時間を節約

RunPodでネットワークボリュームを使っている場合、モデルのキャッシュが次回起動時も残るため、毎回20GBをダウンロードせずに済みます。

よくある質問

QACE-Step 1.5 XLで生成した音楽を商用利用できますか?
A

MIT商用ライセンスで公開されており、法的に準拠したデータで学習されているため商用利用は可能です。YouTubeや同人作品、商業プロジェクトへの使用も問題ありません。ただし、各プラットフォームのAI生成コンテンツポリシーは別途確認してください。

Q日本語の歌詞は生成できますか?
A

はい、50言語以上に対応しているため日本語歌詞の生成が可能です。CaptionでJapanese female vocalなどのスタイルを指定すると、より自然な発音になります。

Qxl-base、xl-sft、xl-turboはどれを選べばいいですか?
A

最初はxl-turboでプロンプトの方向性を素早く確認するのがおすすめです。気に入った方向性が見つかったら、同じプロンプトでxl-sftを使って最終出力を生成するのが効率的な使い方です。

Q必要なVRAMはどのくらいですか?
A

推奨構成はxl-turbo + 1.7B LMで12GBです。RTX 3060(12GB)以上あれば動作します。VRAMが8GBの場合は0.6B LMとの組み合わせで動作しますが、品質はやや下がります。

QComfyUIでACE-Step 1.5 XLを使うのに特別なセットアップは必要ですか?
A

ComfyUIを最新版に更新して、左メニューの「Templates」から「ACE Step」を検索してワークフローを選ぶだけで使えます。

まとめ

ACE-Step 1.5 XLは、無料で使えるオープンソースのAI音楽生成モデルとして現時点でトップクラスの選択肢です。

  • 4Bパラメータで商用グレードの音質を実現
  • 3つのモデル(xl-base / xl-sft / xl-turbo)で用途に合わせて使い分け
  • MIT商用ライセンスで商用・同人利用OK
  • プロンプトはCaptionで複数次元を指定、Lyricsは構造タグで組み立てる
  • VRAM 12GBあればローカルで快適に動作、足りなければRunPodで

ComfyUIで音楽生成AIを試してみたいなら、ACE-Step 1.5 XLは現時点で最有力の選択肢です。無料・商用OKのオープンソースで、ComfyUIとの連携も公式サポート済み。ぜひ試してみてください。

1曲6秒・$0.69/時間のRTX 4090で、何度でも試行錯誤できる



紹介リンクからの登録でクレジットボーナスあり

関連記事

RunPodの始め方|登録・クレジット購入・ComfyUI起動まで完全ガイド【2026年版】
RunPodのアカウント登録・クレジット購入・Pod立ち上げ・ComfyUI起動まで画面スクショつきで丁寧に解説。GPU不要でブラウザだけでAI画像生成を始められるクラウドGPUサービスの使い方を初心者向けにまとめました。
【2026年版】ローカルAI画像生成 初心者完全ガイド|ComfyUI・SDWEBUI どっちを使う?学習ロードマップ
ComfyUI・Stable Diffusion WebUI どちらを使えばいい?ローカルAI画像生成の始め方を初心者向けに解説。ツール選びからインストール・モデル準備・LoRA・ControlNetまで、学ぶべき順番と各記事へのリンクをまとめました。
GenStash|AI画像の生成設定を自動抽出・管理できる無料Webツール
AI画像のPNG Infoを自動抽出して保存・整理・共有できる無料Webサービス「GenStash」を紹介。ComfyUI・Stable Diffusion WebUI・NovelAIに対応し、プロンプトやシード値の管理が一瞬で完了します。

コメント