⚠️ 注意: AI画像生成時は著作権・肖像権にご注意ください。商用利用前には各サービスの利用規約をご確認ください。当ブログは生成された画像に関する責任を負いかねます。
📝 本記事にはアフィリエイトリンクが含まれています。
要約
ACE-Step 1.5 XLをRunPod上のComfyUIで動かすために、公開用のRunPodテンプレートを作りました。
テンプレート名は通常版が ComfyUI-ACE-Step1.5XL-FreeCraftLog、CUDA 12.8版が ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog です。
同じ構成で試したい場合は、以下のDeployリンクから起動できます。
| 用途 | テンプレート | Deploy |
|---|---|---|
| まずはこちら | ComfyUI-ACE-Step1.5XL-FreeCraftLog |
RunPodでDeploy |
| RTX 5090などで通常版が起動しない場合 | ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog |
CUDA 12.8版をDeploy |

この記事では、公開テンプレートの使い方、base / SFT / turboの選び方、RTX 4090 / RTX 3090で2分音源を生成した時間、参考コスト、つまずいた点をまとめます。
はじめに
ACE-Step 1.5 XLは、ComfyUIからAI音楽生成を試せるモデルです。
ただ、RunPodで毎回モデルやtext encoderを確認しながら環境を作るのは手間でした。
そこで、ComfyUIのworkflow templateを選ぶだけでACE-Step 1.5 XLを実行できるRunPodテンプレートとしてまとめました。
この記事は、RunPodテンプレート作成シリーズのACE-Step 1.5 XL編です。Wan2.2用のRunPodテンプレートも同じ構成で公開しています。Wan2.2用ComfyUIテンプレート記事もあわせてどうぞ。
ACE-Step 1.5 XL用ComfyUIテンプレートの構成
作ったのは、ACE-Step 1.5 XLをRunPod上のComfyUIで試すための公開テンプレートです。
公開リポジトリはこちらです。
テンプレートでは、GHCRに置いた事前ビルド済みimageを使います。
| 用途 | Container image |
|---|---|
| 通常版 | ghcr.io/ryoheitanaka/runpod-templates-acestep15xl:v1.0.0-cuda12.4 |
| CUDA 12.8版 | ghcr.io/ryoheitanaka/runpod-templates-acestep15xl:v1.0.0-cuda12.8 |
Start Commandは以下です。
/opt/runpod/start.sh

image build時に、OS package、ComfyUI、Python dependencies、huggingface_hub、hf_transferを入れておき、Pod起動時にはモデル配置とComfyUI起動を行います。
公開テンプレートから使う方法
まず試すなら、通常版の ComfyUI-ACE-Step1.5XL-FreeCraftLog を使います。
RunPodの登録やクレジット追加がまだの場合は、先にRunPodの始め方ガイドを参考にしてください。

Pod作成時に見るポイントは以下です。
| 項目 | 推奨値 |
|---|---|
| Template | ComfyUI-ACE-Step1.5XL-FreeCraftLog |
| Container Disk | 100 GB |
| Volume Mount Path | /workspace |
| Ports | 8188/http, 22/tcp |
| Start Command | /opt/runpod/start.sh |
ACESTEP_XL_VARIANT |
all |
ACESTEP_LM |
all |
起動後はComfyUIを開き、workflow templateからACE-Step 1.5 XL系のワークフローを選んで実行します。
ACE-Step 1.5 XL自体の概要やComfyUIでの基本的な使い方は、ACE-Step 1.5 XLの解説記事でまとめています。
base / SFT / turboとtext encoderの選び方
このテンプレートでは、ACE-Step 1.5 XLのdiffusion modelを環境変数で切り替えられるようにしています。
| 環境変数 | 用途 |
|---|---|
ACESTEP_XL_VARIANT=xl_base |
baseのみ |
ACESTEP_XL_VARIANT=xl_sft |
SFTのみ |
ACESTEP_XL_VARIANT=xl_turbo |
turboのみ |
ACESTEP_XL_VARIANT=all |
3種類すべて |
text encoderも同じように切り替えられます。
| 環境変数 | 用途 |
|---|---|
ACESTEP_LM=qwen_0.6b |
qwen 0.6B |
ACESTEP_LM=qwen_1.7b |
qwen 1.7B |
ACESTEP_LM=qwen_4b |
qwen 4B |
ACESTEP_LM=all |
3種類すべて |
最初は all にしています。モデル容量は増えますが、ComfyUIのworkflow templateを切り替えたときにtext encoder不足で止まるのを避けるためです。
CUDA 12.4版とCUDA 12.8版の使い分け
基本的には、RTX 3090 / RTX 4090では通常版の ComfyUI-ACE-Step1.5XL-FreeCraftLog を使う想定です。
CUDA 12.8版の ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog は、RTX 5090など新しいGPUで通常版のPod作成や起動に失敗する場合に試すためのテンプレートです。
通常版より高性能なテンプレートというより、新しいGPU向けの互換性確保版として用意しています。
テンプレートの仕組み
事前ビルドimageで何を済ませているか
事前ビルドimageでは、以下を済ませています。
git,git-lfs,curl,ffmpeg,libsndfile1などをinstall/opt/ComfyUIにComfyUIをclone- ComfyUI requirementsをinstall
huggingface_hubとhf_transferをinstall/opt/runpod/start.shをimage内に配置
Pod起動時に毎回ComfyUIのinstallから始めると、起動時間と失敗要因が増えます。そこで、ComfyUI本体と依存関係はimage側で済ませ、Pod起動時はモデル配置とComfyUI起動に寄せました。
Pod起動時に何をしているか
Pod起動時の start.sh では、主に以下を行います。
/workspace/models/acestep15xl、/workspace/logs、/workspace/outputsを作成ACESTEP_XL_VARIANTに応じてdiffusion modelをダウンロードACESTEP_LMに応じてqwen text encoderをダウンロードace_1.5_vae.safetensorsをダウンロード/opt/ComfyUI/models/*へsymlink0.0.0.0:8188でComfyUIを起動
モデルはimageに含めず、Pod起動時に /workspace/models/acestep15xl へ配置します。RunPod上でComfyUIを開いた後の基本操作は、RunPodでComfyUIを使う方法でも整理しています。
Hugging Face tokenは設定推奨
ACE-Step 1.5 XLは大きめのモデルやtext encoderを使います。未認証でも取得できるファイルがある場合でも、Hugging Face tokenを設定しておいたほうが、rate limitやダウンロード安定性の面で安心です。
テンプレートには HF_TOKEN=your-huggingface-token というplaceholderを入れています。本物のtokenを使う場合は、Pod作成時に差し替えてください。
動作確認と生成時間
RTX 4090とRTX 3090で、2分音源の生成時間を確認しました。
ACESTEP_XL_VARIANT=all、ACESTEP_LM=all での初回起動(キャッシュなし)は、RTX 4090で約2分15秒でした。diffusion model 3本とtext encoder 3本のダウンロードが含まれます。2回目以降はキャッシュが効くためもっと短くなります。
共通設定は以下です。
- Duration:
120.0seconds - Sampler:
euler - Scheduler:
simple - Denoise:
1.00 - Seed:
0 - Language:
en
生成時間は以下です。
| Variant | Steps | CFG | BPM | RTX 4090 | RTX 3090 |
|---|---|---|---|---|---|
| XL Turbo | 8 | 1.0 | 95 | 41.95s | 47.36s |
| XL SFT | 50 | 7.0 | 120 | 63.41s | 77.39s |
| XL Base | 50 | 6.0 | 72 | 66.51s | 85.01s |

XL Base / RTX 4090 での2分音源の生成サンプルです。
RTX 4090は速度と料金のバランスがよく、RTX 3090もコスパ枠として十分実用的でした。RTX 5090はCUDA 12.8版で起動確認まで行いましたが、詳細比較は別記事候補にします。
コスト感
検証時点の参考として、RunPod上の料金表示は以下でした。
| GPU | GPU price | 100GB storage | Total hourly reference |
|---|---|---|---|
| RTX 4090 | $0.69/hr |
$0.014/hr |
$0.704/hr |
| RTX 3090 | $0.46/hr |
$0.014/hr |
$0.474/hr |
生成時間だけで概算した2分音源1回あたりの参考コストは以下です。
| Variant | RTX 4090 | RTX 3090 |
|---|---|---|
| XL Turbo | $0.0082 |
$0.0062 |
| XL SFT | $0.0124 |
$0.0102 |
| XL Base | $0.0130 |
$0.0112 |
ただし、実際の課金はPod稼働時間です。起動待ち、モデルdownload、操作時間、idle timeも入るため、この表はあくまで生成処理部分だけを切り出した目安です。
つまずいたところ
huggingface-cliがdeprecatedだった
最初は huggingface-cli download を使っていましたが、以下の警告が出ました。
Warning: huggingface-cli is deprecated and no longer works. Use hf instead.
そのため、hf download を使う形に変更しました。
text encoderが足りなかった
最初は qwen_1.7b だけでよいと思っていました。しかし、workflow templateによっては qwen_0.6b や qwen_4b も参照します。
そこで ACESTEP_LM=all を標準にして、text encoder不足で止まりにくい構成にしました。
80GB diskでは薄かった
diffusion model 3本とtext encoder 3本を入れると、モデル本体だけでかなり容量を使います。cacheや一時ファイルも考えると、80GBでは余裕が薄かったため、Container Diskは100GBにしました。
RTX 5090はCUDA 12.4でcontainer createに失敗した
RTX 5090では、CUDA 12.4 imageがsetup scriptに入る前のcontainer create段階で失敗しました。そのため、CUDA 12.8 / PyTorch 2.8のテンプレートを別に用意しています。
使い終わったらPodを止める
音楽生成も、GPUを起動したままにすると料金が発生します。生成が終わったら、RunPod consoleでPodの停止または削除を確認してください。
生成した音声ファイルを残したい場合は、Podを停止または削除する前に必ずダウンロードしておきます。
まとめ
ACE-Step 1.5 XL用のRunPodテンプレートは、最終的に以下の構成にしました。
- 通常版はCUDA 12.4 / PyTorch 2.4系
- CUDA 12.8版はRTX 5090など新しいGPU向けの代替
- ComfyUIと依存関係はimage build時に用意
- diffusion model 3本とtext encoder 3本を
allで配置できる - base / SFT / turboをComfyUI workflow templateから選んで実行できる
- RTX 4090 / RTX 3090で2分音源の生成時間を確認済み
同じ構成でACE-Step 1.5 XLを試す場合は、公開テンプレートからDeployするのが早いです。
関連記事



⚠️ AI画像生成をご利用の際の重要な注意事項
著作権・知的財産権について
- 既存のキャラクター、作品、ブランドロゴなどの模倣・複製は著作権侵害にあたる可能性があります
- 商用利用時は特に注意が必要です
肖像権について
- 実在人物(著名人・一般人問わず)の顔や特徴を模倣した画像生成はお控えください
- 無断での肖像権使用は法的トラブルの原因となります
利用規約の確認
- 各AI画像生成サービスの利用規約を必ずご確認ください
- 商用利用の可否、生成画像の権利関係は各サービスで異なります
免責事項
- 当ブログの情報を参考にしたAI画像生成により生じた問題について、当ブログは一切の責任を負いません
- 法的問題が生じた場合は、利用者の自己責任となります
- 最新の法律・規約情報は公式情報をご確認ください
適切なAI画像生成を心がけ、創作活動を楽しみましょう。
詳細についてはAIと著作権についてをご覧ください。


コメント