ACE-Step 1.5 XLをRunPodで動かす公開ComfyUIテンプレートを作りました

生成AI

⚠️ 注意: AI画像生成時は著作権・肖像権にご注意ください。商用利用前には各サービスの利用規約をご確認ください。当ブログは生成された画像に関する責任を負いかねます。

📝 本記事にはアフィリエイトリンクが含まれています。

要約

ACE-Step 1.5 XLをRunPod上のComfyUIで動かすために、公開用のRunPodテンプレートを作りました。

テンプレート名は通常版が ComfyUI-ACE-Step1.5XL-FreeCraftLog、CUDA 12.8版が ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog です。

同じ構成で試したい場合は、以下のDeployリンクから起動できます。

用途 テンプレート Deploy
まずはこちら ComfyUI-ACE-Step1.5XL-FreeCraftLog RunPodでDeploy
RTX 5090などで通常版が起動しない場合 ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog CUDA 12.8版をDeploy
RunPodのACE-Step 1.5 XL ComfyUIテンプレートDeploy画面
公開テンプレートから同じ構成でDeployできる

この記事では、公開テンプレートの使い方、base / SFT / turboの選び方、RTX 4090 / RTX 3090で2分音源を生成した時間、参考コスト、つまずいた点をまとめます。

数値について
Template IDやRunPodの料金は変わる可能性があります。記事内の数値は検証時点の参考として見てください。

はじめに

ACE-Step 1.5 XLは、ComfyUIからAI音楽生成を試せるモデルです。

ただ、RunPodで毎回モデルやtext encoderを確認しながら環境を作るのは手間でした。

そこで、ComfyUIのworkflow templateを選ぶだけでACE-Step 1.5 XLを実行できるRunPodテンプレートとしてまとめました。

モチベル
音楽生成って、画像生成より準備が違うの?
クーラット
diffusion modelだけじゃなくて、text encoderやVAEも必要になる。足りないとworkflowで止まるから、まとめて配置するテンプレートにしたよ。

この記事は、RunPodテンプレート作成シリーズのACE-Step 1.5 XL編です。Wan2.2用のRunPodテンプレートも同じ構成で公開しています。Wan2.2用ComfyUIテンプレート記事もあわせてどうぞ。

ACE-Step 1.5 XL用ComfyUIテンプレートの構成

作ったのは、ACE-Step 1.5 XLをRunPod上のComfyUIで試すための公開テンプレートです。

公開リポジトリはこちらです。

GitHub - RyoheiTanaka/runpod-templates: RunPod用スタートアップスクリプトテンプレート集(Wan2.2 / ACE-Step など)
RunPod用スタートアップスクリプトテンプレート集(Wan2.2 / ACE-Step など). Contribute to RyoheiTanaka/runpod-templates development by creating an...

テンプレートでは、GHCRに置いた事前ビルド済みimageを使います。

用途 Container image
通常版 ghcr.io/ryoheitanaka/runpod-templates-acestep15xl:v1.0.0-cuda12.4
CUDA 12.8版 ghcr.io/ryoheitanaka/runpod-templates-acestep15xl:v1.0.0-cuda12.8

Start Commandは以下です。

/opt/runpod/start.sh
ACE-Step 1.5 XL RunPodテンプレートのContainer imageとStart Command設定
GHCRの固定tag imageとStart Commandを確認する

image build時に、OS package、ComfyUI、Python dependencies、huggingface_hubhf_transferを入れておき、Pod起動時にはモデル配置とComfyUI起動を行います。

公開テンプレートから使う方法

まず試すなら、通常版の ComfyUI-ACE-Step1.5XL-FreeCraftLog を使います。

RunPodの登録やクレジット追加がまだの場合は、先にRunPodの始め方ガイドを参考にしてください。

RunPodの始め方|登録・クレジット購入・ComfyUI起動まで完全ガイド【2026年版】
RunPodの登録方法・クレジット購入・Pod起動・ComfyUI接続まで画面スクショ付きで解説。RunPodの始め方として、GPU選び・料金プラン・ストレージ設定・停止方法まで初心者向けにまとめました。

Pod作成時に見るポイントは以下です。

項目 推奨値
Template ComfyUI-ACE-Step1.5XL-FreeCraftLog
Container Disk 100 GB
Volume Mount Path /workspace
Ports 8188/http, 22/tcp
Start Command /opt/runpod/start.sh
ACESTEP_XL_VARIANT all
ACESTEP_LM all

起動後はComfyUIを開き、workflow templateからACE-Step 1.5 XL系のワークフローを選んで実行します。

ACE-Step 1.5 XL自体の概要やComfyUIでの基本的な使い方は、ACE-Step 1.5 XLの解説記事でまとめています。

base / SFT / turboとtext encoderの選び方

このテンプレートでは、ACE-Step 1.5 XLのdiffusion modelを環境変数で切り替えられるようにしています。

環境変数 用途
ACESTEP_XL_VARIANT=xl_base baseのみ
ACESTEP_XL_VARIANT=xl_sft SFTのみ
ACESTEP_XL_VARIANT=xl_turbo turboのみ
ACESTEP_XL_VARIANT=all 3種類すべて

text encoderも同じように切り替えられます。

環境変数 用途
ACESTEP_LM=qwen_0.6b qwen 0.6B
ACESTEP_LM=qwen_1.7b qwen 1.7B
ACESTEP_LM=qwen_4b qwen 4B
ACESTEP_LM=all 3種類すべて

最初は all にしています。モデル容量は増えますが、ComfyUIのworkflow templateを切り替えたときにtext encoder不足で止まるのを避けるためです。

CUDA 12.4版とCUDA 12.8版の使い分け

基本的には、RTX 3090 / RTX 4090では通常版の ComfyUI-ACE-Step1.5XL-FreeCraftLog を使う想定です。

CUDA 12.8版の ComfyUI-ACE-Step1.5XL-cuda12.8-FreeCraftLog は、RTX 5090など新しいGPUで通常版のPod作成や起動に失敗する場合に試すためのテンプレートです。

通常版より高性能なテンプレートというより、新しいGPU向けの互換性確保版として用意しています。

テンプレートの仕組み

事前ビルドimageで何を済ませているか

事前ビルドimageでは、以下を済ませています。

  • git, git-lfs, curl, ffmpeg, libsndfile1 などをinstall
  • /opt/ComfyUI にComfyUIをclone
  • ComfyUI requirementsをinstall
  • huggingface_hubhf_transfer をinstall
  • /opt/runpod/start.sh をimage内に配置

Pod起動時に毎回ComfyUIのinstallから始めると、起動時間と失敗要因が増えます。そこで、ComfyUI本体と依存関係はimage側で済ませ、Pod起動時はモデル配置とComfyUI起動に寄せました。

Pod起動時に何をしているか

Pod起動時の start.sh では、主に以下を行います。

  1. /workspace/models/acestep15xl/workspace/logs/workspace/outputs を作成
  2. ACESTEP_XL_VARIANT に応じてdiffusion modelをダウンロード
  3. ACESTEP_LM に応じてqwen text encoderをダウンロード
  4. ace_1.5_vae.safetensors をダウンロード
  5. /opt/ComfyUI/models/* へsymlink
  6. 0.0.0.0:8188 でComfyUIを起動

モデルはimageに含めず、Pod起動時に /workspace/models/acestep15xl へ配置します。RunPod上でComfyUIを開いた後の基本操作は、RunPodでComfyUIを使う方法でも整理しています。

Hugging Face tokenは設定推奨

ACE-Step 1.5 XLは大きめのモデルやtext encoderを使います。未認証でも取得できるファイルがある場合でも、Hugging Face tokenを設定しておいたほうが、rate limitやダウンロード安定性の面で安心です。

テンプレートには HF_TOKEN=your-huggingface-token というplaceholderを入れています。本物のtokenを使う場合は、Pod作成時に差し替えてください。

トークンの取り扱い
HF_TOKENやRunPod APIキーはPod作成時にEnvironment Variableとして設定します。スクリーンショットを撮る際はこれらの値が画面に映らないよう注意してください。

動作確認と生成時間

RTX 4090とRTX 3090で、2分音源の生成時間を確認しました。

ACESTEP_XL_VARIANT=allACESTEP_LM=all での初回起動(キャッシュなし)は、RTX 4090で約2分15秒でした。diffusion model 3本とtext encoder 3本のダウンロードが含まれます。2回目以降はキャッシュが効くためもっと短くなります。

共通設定は以下です。

  • Duration: 120.0 seconds
  • Sampler: euler
  • Scheduler: simple
  • Denoise: 1.00
  • Seed: 0
  • Language: en

生成時間は以下です。

Variant Steps CFG BPM RTX 4090 RTX 3090
XL Turbo 8 1.0 95 41.95s 47.36s
XL SFT 50 7.0 120 63.41s 77.39s
XL Base 50 6.0 72 66.51s 85.01s
モチベル
Turboって速いね。SFTやBaseの半分以下じゃん。
クーラット
step数が8と50で全然違うから。品質はSFTが安定してるけど、まず試すならTurboが手軽だよ。
ACE-Step 1.5 XLのRTX 4090とRTX 3090の生成時間比較
2分音源の生成時間をRTX 4090とRTX 3090で比較

XL Base / RTX 4090 での2分音源の生成サンプルです。

ACE-Step 1.5 XL Base 生成サンプル(2分音源 / RTX 4090)

RTX 4090は速度と料金のバランスがよく、RTX 3090もコスパ枠として十分実用的でした。RTX 5090はCUDA 12.8版で起動確認まで行いましたが、詳細比較は別記事候補にします。

コスト感

検証時点の参考として、RunPod上の料金表示は以下でした。

GPU GPU price 100GB storage Total hourly reference
RTX 4090 $0.69/hr $0.014/hr $0.704/hr
RTX 3090 $0.46/hr $0.014/hr $0.474/hr

生成時間だけで概算した2分音源1回あたりの参考コストは以下です。

Variant RTX 4090 RTX 3090
XL Turbo $0.0082 $0.0062
XL SFT $0.0124 $0.0102
XL Base $0.0130 $0.0112

ただし、実際の課金はPod稼働時間です。起動待ち、モデルdownload、操作時間、idle timeも入るため、この表はあくまで生成処理部分だけを切り出した目安です。

つまずいたところ

huggingface-cliがdeprecatedだった

最初は huggingface-cli download を使っていましたが、以下の警告が出ました。

Warning: huggingface-cli is deprecated and no longer works. Use hf instead.

そのため、hf download を使う形に変更しました。

text encoderが足りなかった

最初は qwen_1.7b だけでよいと思っていました。しかし、workflow templateによっては qwen_0.6bqwen_4b も参照します。

そこで ACESTEP_LM=all を標準にして、text encoder不足で止まりにくい構成にしました。

80GB diskでは薄かった

diffusion model 3本とtext encoder 3本を入れると、モデル本体だけでかなり容量を使います。cacheや一時ファイルも考えると、80GBでは余裕が薄かったため、Container Diskは100GBにしました。

RTX 5090はCUDA 12.4でcontainer createに失敗した

RTX 5090では、CUDA 12.4 imageがsetup scriptに入る前のcontainer create段階で失敗しました。そのため、CUDA 12.8 / PyTorch 2.8のテンプレートを別に用意しています。

使い終わったらPodを止める

音楽生成も、GPUを起動したままにすると料金が発生します。生成が終わったら、RunPod consoleでPodの停止または削除を確認してください。

生成した音声ファイルを残したい場合は、Podを停止または削除する前に必ずダウンロードしておきます。

StopとTerminateの違い
StopはGPU課金を止めますが、Container Diskのデータは消えます。Volume DiskやNetwork Volumeのストレージ料金は継続します。TerminateはPodを完全削除し、Container DiskとVolume Diskのデータも消えます。RunPodの料金体系の詳細はRunPod料金・クレジットガイドで解説しています。

まとめ

ACE-Step 1.5 XL用のRunPodテンプレートは、最終的に以下の構成にしました。

  • 通常版はCUDA 12.4 / PyTorch 2.4系
  • CUDA 12.8版はRTX 5090など新しいGPU向けの代替
  • ComfyUIと依存関係はimage build時に用意
  • diffusion model 3本とtext encoder 3本を all で配置できる
  • base / SFT / turboをComfyUI workflow templateから選んで実行できる
  • RTX 4090 / RTX 3090で2分音源の生成時間を確認済み

同じ構成でACE-Step 1.5 XLを試す場合は、公開テンプレートからDeployするのが早いです。

関連記事

ACE-Step 1.5 XL完全ガイド|ComfyUIで使えるAI音楽生成モデルの使い方・プロンプト・3つのモデル解説
ACE-Step 1.5 XLの3つのモデル(xl-base/sft/turbo)の使い分けからプロンプトの書き方、ComfyUIでの起動手順、RunPodでのクラウド実行まで実用的に解説。MIT商用ライセンスで無料・商用利用OK。
RunPodでComfyUIを使う方法|モデル追加・ワークフロー実行・画像保存まで解説
RunPodでComfyUIを開く方法から、モデル・LoRA・VAEの配置場所、ワークフローJSONの読み込み、画像生成、保存、Pod停止、よくあるエラー対処まで初心者向けに解説します。起動後に何をすればよいか迷う人向けの実用ガイドとしてまとめました。
RunPodの始め方|登録・クレジット購入・ComfyUI起動まで完全ガイド【2026年版】
RunPodの登録方法・クレジット購入・Pod起動・ComfyUI接続まで画面スクショ付きで解説。RunPodの始め方として、GPU選び・料金プラン・ストレージ設定・停止方法まで初心者向けにまとめました。
AIで作った画像集・プロンプトPDF付き BOOTHで販売中

⚠️ AI画像生成をご利用の際の重要な注意事項

著作権・知的財産権について

  • 既存のキャラクター、作品、ブランドロゴなどの模倣・複製は著作権侵害にあたる可能性があります
  • 商用利用時は特に注意が必要です

肖像権について

  • 実在人物(著名人・一般人問わず)の顔や特徴を模倣した画像生成はお控えください
  • 無断での肖像権使用は法的トラブルの原因となります

利用規約の確認

  • 各AI画像生成サービスの利用規約を必ずご確認ください
  • 商用利用の可否、生成画像の権利関係は各サービスで異なります

免責事項

  • 当ブログの情報を参考にしたAI画像生成により生じた問題について、当ブログは一切の責任を負いません
  • 法的問題が生じた場合は、利用者の自己責任となります
  • 最新の法律・規約情報は公式情報をご確認ください

適切なAI画像生成を心がけ、創作活動を楽しみましょう。
詳細についてはAIと著作権についてをご覧ください。

コメント