ACE-Step 1.5 XLをRunPodで動かす公開ComfyUIテンプレート

⚠️ 注意: AI画像生成時は著作権・肖像権にご注意ください。商用利用前には各サービスの利用規約をご確認ください。当ブログは生成された画像に関する責任を負いかねます。

📝 本記事にはアフィリエイトリンクが含まれています。

要約

ACE-Step 1.5 XLをRunPod上のComfyUIで動かすために、公開用のRunPodテンプレートを作りました。

テンプレート名は通常版が ComfyUI-ACE-Step1.5XL-FreeCraftLog、CUDA 12.8版が ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog です。

同じ構成で試したい場合は、以下のDeployリンクから起動できます。

用途	テンプレート	Deploy
まずはこちら	`ComfyUI-ACE-Step1.5XL-FreeCraftLog`	RunPodでDeploy
RTX 5090などで通常版が起動しない場合	`ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog`	CUDA 12.8版をDeploy

RunPodのACE-Step 1.5 XL ComfyUIテンプレートDeploy画面 — 公開テンプレートから同じ構成でDeployできる

この記事では、公開テンプレートの使い方、base / SFT / turboの選び方、RTX 4090 / RTX 3090で2分音源を生成した時間、参考コスト、つまずいた点をまとめます。

数値について

Template IDやRunPodの料金は変わる可能性があります。記事内の数値は検証時点の参考として見てください。

はじめに

ACE-Step 1.5 XLは、ComfyUIからAI音楽生成を試せるモデルです。

ただ、RunPodで毎回モデルやtext encoderを確認しながら環境を作るのは手間でした。

そこで、ComfyUIのworkflow templateを選ぶだけでACE-Step 1.5 XLを実行できるRunPodテンプレートとしてまとめました。

モチベル

音楽生成って、画像生成より準備が違うの？

クーラット

diffusion modelだけじゃなくて、text encoderやVAEも必要になる。足りないとworkflowで止まるから、まとめて配置するテンプレートにしたよ。

この記事は、RunPodテンプレート作成シリーズのACE-Step 1.5 XL編です。Wan2.2用のRunPodテンプレートも同じ構成で公開しています。Wan2.2用ComfyUIテンプレート記事もあわせてどうぞ。

ACE-Step 1.5 XL用ComfyUIテンプレートの構成

作ったのは、ACE-Step 1.5 XLをRunPod上のComfyUIで試すための公開テンプレートです。

公開リポジトリはこちらです。

GitHub - RyoheiTanaka/runpod-templates: RunPod用スタートアップスクリプトテンプレート集（Wan2.2 / ACE-Step など）

RunPod用スタートアップスクリプトテンプレート集（Wan2.2 / ACE-Step など）. Contribute to RyoheiTanaka/runpod-templates development by creating an...

テンプレートでは、GHCRに置いた事前ビルド済みimageを使います。

用途	Container image
通常版	`ghcr.io/ryoheitanaka/runpod-templates-acestep15xl:v1.0.0-cuda12.4`
CUDA 12.8版	`ghcr.io/ryoheitanaka/runpod-templates-acestep15xl:v1.0.0-cuda12.8`

Start Commandは以下です。

/opt/runpod/start.sh

ACE-Step 1.5 XL RunPodテンプレートのContainer imageとStart Command設定 — GHCRの固定tag imageとStart Commandを確認する

image build時に、OS package、ComfyUI、Python dependencies、huggingface_hub、hf_transferを入れておき、Pod起動時にはモデル配置とComfyUI起動を行います。

公開テンプレートから使う方法

まず試すなら、通常版の ComfyUI-ACE-Step1.5XL-FreeCraftLog を使います。

ACE-Step 1.5 XLテンプレートをRunPodでDeployする

RunPodの登録やクレジット追加がまだの場合は、先にRunPodの始め方ガイドを参考にしてください。

RunPodの始め方｜登録・クレジット購入・ComfyUI起動まで完全ガイド【2026年版】

GPU不要、ブラウザだけで最短10分。RunPodの始め方を登録・クレジット購入・Pod起動・ComfyUI接続まで画面スクショ付きで解説。GPU選び・料金・ストレージ設定・停止忘れ対策まで初心者向けにまとめました。高性能なPCがなくてもAI画像生成を始められます。

Pod作成時に見るポイントは以下です。

項目	推奨値
Template	`ComfyUI-ACE-Step1.5XL-FreeCraftLog`
Container Disk	`100 GB`
Volume Mount Path	`/workspace`
Ports	`8188/http`, `22/tcp`
Start Command	`/opt/runpod/start.sh`
`ACESTEP_XL_VARIANT`	`all`
`ACESTEP_LM`	`all`

起動後はComfyUIを開き、workflow templateからACE-Step 1.5 XL系のワークフローを選んで実行します。

ACE-Step 1.5 XL自体の概要やComfyUIでの基本的な使い方は、ACE-Step 1.5 XLの解説記事でまとめています。

base / SFT / turboとtext encoderの選び方

このテンプレートでは、ACE-Step 1.5 XLのdiffusion modelを環境変数で切り替えられるようにしています。

環境変数	用途
`ACESTEP_XL_VARIANT=xl_base`	baseのみ
`ACESTEP_XL_VARIANT=xl_sft`	SFTのみ
`ACESTEP_XL_VARIANT=xl_turbo`	turboのみ
`ACESTEP_XL_VARIANT=all`	3種類すべて

text encoderも同じように切り替えられます。

環境変数	用途
`ACESTEP_LM=qwen_0.6b`	qwen 0.6B
`ACESTEP_LM=qwen_1.7b`	qwen 1.7B
`ACESTEP_LM=qwen_4b`	qwen 4B
`ACESTEP_LM=all`	3種類すべて

最初は all にしています。モデル容量は増えますが、ComfyUIのworkflow templateを切り替えたときにtext encoder不足で止まるのを避けるためです。

CUDA 12.4版とCUDA 12.8版の使い分け

基本的には、RTX 3090 / RTX 4090では通常版の ComfyUI-ACE-Step1.5XL-FreeCraftLog を使う想定です。

CUDA 12.8版の ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog は、RTX 5090など新しいGPUで通常版のPod作成や起動に失敗する場合に試すためのテンプレートです。

通常版より高性能なテンプレートというより、新しいGPU向けの互換性確保版として用意しています。

テンプレートの仕組み

事前ビルドimageで何を済ませているか

事前ビルドimageでは、以下を済ませています。

git, git-lfs, curl, ffmpeg, libsndfile1 などをinstall
/opt/ComfyUI にComfyUIをclone
ComfyUI requirementsをinstall
huggingface_hub と hf_transfer をinstall
/opt/runpod/start.sh をimage内に配置

Pod起動時に毎回ComfyUIのinstallから始めると、起動時間と失敗要因が増えます。そこで、ComfyUI本体と依存関係はimage側で済ませ、Pod起動時はモデル配置とComfyUI起動に寄せました。

Pod起動時に何をしているか

Pod起動時の start.sh では、主に以下を行います。

/workspace/models/acestep15xl、/workspace/logs、/workspace/outputs を作成
ACESTEP_XL_VARIANT に応じてdiffusion modelをダウンロード
ACESTEP_LM に応じてqwen text encoderをダウンロード
ace_1.5_vae.safetensors をダウンロード
/opt/ComfyUI/models/* へsymlink
0.0.0.0:8188 でComfyUIを起動

モデルはimageに含めず、Pod起動時に /workspace/models/acestep15xl へ配置します。RunPod上でComfyUIを開いた後の基本操作は、RunPodでComfyUIを使う方法でも整理しています。

Hugging Face tokenは設定推奨

ACE-Step 1.5 XLは大きめのモデルやtext encoderを使います。未認証でも取得できるファイルがある場合でも、Hugging Face tokenを設定しておいたほうが、rate limitやダウンロード安定性の面で安心です。

テンプレートには HF_TOKEN=your-huggingface-token というplaceholderを入れています。本物のtokenを使う場合は、Pod作成時に差し替えてください。

トークンの取り扱い

HF_TOKENやRunPod APIキーはPod作成時にEnvironment Variableとして設定します。スクリーンショットを撮る際はこれらの値が画面に映らないよう注意してください。

動作確認と生成時間

RTX 4090とRTX 3090で、2分音源の生成時間を確認しました。

ACESTEP_XL_VARIANT=all、ACESTEP_LM=all での初回起動（キャッシュなし）は、RTX 4090で約2分15秒でした。diffusion model 3本とtext encoder 3本のダウンロードが含まれます。2回目以降はキャッシュが効くためもっと短くなります。

共通設定は以下です。

Duration: 120.0 seconds
Sampler: euler
Scheduler: simple
Denoise: 1.00
Seed: 0
Language: en

生成時間は以下です。

Variant	Steps	CFG	BPM	RTX 4090	RTX 3090
XL Turbo	8	1.0	95	41.95s	47.36s
XL SFT	50	7.0	120	63.41s	77.39s
XL Base	50	6.0	72	66.51s	85.01s

モチベル

Turboって速いね。SFTやBaseの半分以下じゃん。

クーラット

step数が8と50で全然違うから。品質はSFTが安定してるけど、まず試すならTurboが手軽だよ。

ACE-Step 1.5 XLのRTX 4090とRTX 3090の生成時間比較 — 2分音源の生成時間をRTX 4090とRTX 3090で比較

XL Base / RTX 4090 での2分音源の生成サンプルです。

ACE-Step 1.5 XL Base 生成サンプル（2分音源 / RTX 4090）

RTX 4090は速度と料金のバランスがよく、RTX 3090もコスパ枠として十分実用的でした。RTX 5090はCUDA 12.8版で起動確認まで行いましたが、詳細比較は別記事候補にします。

コスト感

検証時点の参考として、RunPod上の料金表示は以下でした。

GPU	GPU price	100GB storage	Total hourly reference
RTX 4090	`$0.69/hr`	`$0.014/hr`	`$0.704/hr`
RTX 3090	`$0.46/hr`	`$0.014/hr`	`$0.474/hr`

生成時間だけで概算した2分音源1回あたりの参考コストは以下です。

Variant	RTX 4090	RTX 3090
XL Turbo	`$0.0082`	`$0.0062`
XL SFT	`$0.0124`	`$0.0102`
XL Base	`$0.0130`	`$0.0112`

ただし、実際の課金はPod稼働時間です。起動待ち、モデルdownload、操作時間、idle timeも入るため、この表はあくまで生成処理部分だけを切り出した目安です。

つまずいたところ

huggingface-cliがdeprecatedだった

最初は huggingface-cli download を使っていましたが、以下の警告が出ました。

Warning: huggingface-cli is deprecated and no longer works. Use hf instead.

そのため、hf download を使う形に変更しました。

text encoderが足りなかった

最初は qwen_1.7b だけでよいと思っていました。しかし、workflow templateによっては qwen_0.6b や qwen_4b も参照します。

そこで ACESTEP_LM=all を標準にして、text encoder不足で止まりにくい構成にしました。

80GB diskでは薄かった

diffusion model 3本とtext encoder 3本を入れると、モデル本体だけでかなり容量を使います。cacheや一時ファイルも考えると、80GBでは余裕が薄かったため、Container Diskは100GBにしました。

RTX 5090はCUDA 12.4でcontainer createに失敗した

RTX 5090では、CUDA 12.4 imageがsetup scriptに入る前のcontainer create段階で失敗しました。そのため、CUDA 12.8 / PyTorch 2.8のテンプレートを別に用意しています。

使い終わったらPodを止める

音楽生成も、GPUを起動したままにすると料金が発生します。生成が終わったら、RunPod consoleでPodの停止または削除を確認してください。

生成した音声ファイルを残したい場合は、Podを停止または削除する前に必ずダウンロードしておきます。

StopとTerminateの違い

StopはGPU課金を止めますが、Container Diskのデータは消えます。Volume DiskやNetwork Volumeのストレージ料金は継続します。TerminateはPodを完全削除し、Container DiskとVolume Diskのデータも消えます。RunPodの料金体系の詳細はRunPod料金・クレジットガイドで解説しています。