Stable Audio 3をComfyUIで使う方法|Small-Music・SFX・Mediumを実際に生成して検証

生成AI

要約

Stable Audio 3はStability AIが開発した音声・音楽生成AIモデルで、2026年5月にComfyUI v0.22.0へのネイティブ対応が発表された。効果音向けの「Small-SFX」、BGM・ループ向けの「Small-Music」、長尺楽曲向けの「Medium」の3種類があり、商用ライセンス済みデータで訓練されている点が特徴。この記事ではHuggingFaceからのモデルダウンロード・ComfyUIへの配置・テンプレート起動の手順と、各モデルで実際に生成した音声サンプルをまとめた。

はじめに

AI音楽生成ツールといえばSunoやUdioが有名だけど、ComfyUIでローカル動作できるモデルとなるとまだ選択肢が少ない。

そんな中、2026年5月にStability AIが「Stable Audio 3」を発表し、同日ComfyUI v0.22.0でネイティブサポートが追加された。テンプレートから1クリックで起動でき、以前のStable Audio Open(最大47秒)から大幅に進化して最大約6分20秒の楽曲が生成できる。

実際に動かしてどんな音が出るのかを確かめてみたのでまとめる。

Stable Audio 3とは

Stable Audio 3は、すべて商用ライセンス済みのデータで訓練されたテキスト→音声生成モデル。前世代のStable Audio Open(最大47秒)と比べて生成長が大幅に伸び、音楽的な構成力も向上している。

ComfyUI v0.22.0以上に標準搭載されており、カスタムノードの追加なしでそのまま使える。

モチベル
Stable Audio 3って商用OKなの?
クーラット
Stability AI Community Licenseの条件内なら商用利用できる。テキストエンコーダのT5-GemmaはGoogleのモデルだけど、Gemma ToUも商用OKで、有害用途の禁止が主な制限だよ。

3つのモデルの特徴

モデル ファイルサイズ 最大生成長 主な用途
Small-SFX 約2.3GB 2分(120秒) 効果音・アンビエンス・SE
Small-Music 約2.3GB 2分(120秒) BGM・ループ・短い楽曲
Medium 約7GB 約6分20秒(380秒) 長尺楽曲・本格的な音楽制作

Small-SFXとSmall-Musicはモデルサイズが同じで、訓練データと得意な用途が異なる。まず試すならSmall-Musicからがおすすめ。Mediumは高品質な分、ダウンロードと生成に時間がかかる。

ライセンスについて
Comfy-Org版はStability AI Community Licenseの再配布条項に基づいて公開されており、ライセンス同意なしでダウンロードできる。ダウンロード後の利用は同ライセンスに従う必要があるが、個人・法人問わず年間収益100万ドル未満であればコミュニティライセンス(無料)で商用利用可能。生成したコンテンツの著作権は利用者に帰属する。年間収益100万ドル以上になった場合はEnterpriseライセンスへの切り替えが必要で、超過後にそのまま利用を続けるとライセンスが自動終了する。詳細はライセンス全文を確認すること。テキストエンコーダのT5-GemmaにはGemma Terms of Useが適用されるが、こちらも商用利用は可能で、有害コンテンツ生成・違法利用などの禁止用途が制限の中心となっている。

ComfyUIへの導入手順

ComfyUI v0.22.0以上が必要。まだアップデートしていない場合は、ComfyUI Managerの「Update All」で最新版にしておく。ComfyUIのインストール自体がまだの場合はComfyUIインストールガイドを参照。

1
HuggingFaceからモデルをダウンロードする

ComfyUI用には Comfy-Orgが公式リパックしたファイルを使う。stabilityai/ 直ではなく Comfy-Org/stable-audio-3 リポジトリからDLするのが正しい手順。ライセンス同意は不要で、HuggingFaceのアカウントがあればそのままDLできる。

チェックポイント(使いたいモデルを選んでDL):

  • Small-Music(BGM・ループ向け):checkpoints/stable_audio_3_small_music.safetensors — 約2.3GB
  • Small-SFX(効果音向け):checkpoints/stable_audio_3_small_sfx.safetensors — 約2.3GB
  • Medium(長尺楽曲向け):checkpoints/stable_audio_3_medium.safetensors — 約7GB

テキストエンコーダ(別途DLが必要):

hfコマンドでまとめてDLするのが楽:

# チェックポイント(例:Small-Music)
hf download Comfy-Org/stable-audio-3 \
  checkpoints/stable_audio_3_small_music.safetensors

# テキストエンコーダ(2つ)
hf download Comfy-Org/stable-audio-3 \
  text_encoders/t5gemma_b_b_ul2.safetensors

hf download Comfy-Org/Qwen3.5 \
  text_encoders/qwen3.5_2b_bf16.safetensors

HuggingFaceのComfy-Org/stable-audio-3リポジトリ

2
モデルとテキストエンコーダをComfyUIに配置する

ダウンロードしたファイルを以下の構成で配置する。フォルダは不要で、checkpoints/ 直下にファイルを置くだけ。

ComfyUI/
└── models/
    ├── checkpoints/
    │   ├── stable_audio_3_medium.safetensors
    │   ├── stable_audio_3_small_music.safetensors   ← Small-Music使う場合
    │   └── stable_audio_3_small_sfx.safetensors     ← Small-SFX使う場合
    └── text_encoders/
        ├── t5gemma_b_b_ul2.safetensors              ← sa_clip(全モデル共通)
        └── qwen3.5_2b_bf16.safetensors              ← qwen_clip(Medium使用・実機確認済み)

テキストエンコーダは models/text_encoders/ に配置する点に注意。チェックポイントと場所が違う。

ComfyUIのcheckpointsフォルダにStable Audio 3のモデルファイルをフラットに配置した状態

テキストエンコーダは models/text_encoders/ に入れる。

ComfyUIのtext_encodersフォルダにt5gemma_b_b_ul2とqwen3.5_2b_bf16の2ファイルを配置した状態

3
ComfyUIのテンプレートからワークフローを起動する

ComfyUIを起動(または再起動)して、左サイドバーのTemplateを開く。カテゴリからAudioを選ぶと「Stable Audio 3」のテンプレートが表示される。

ComfyUIのAudioカテゴリにあるStable Audio 3テンプレート一覧

テンプレートは「Stable Audio 3.0 Medium」と「Stable Audio 3.0 Medium Base」の2つがある。Baseなしを選ぶのが正解。

テンプレート モデル 違い
Stable Audio 3.0 Medium stable_audio_3_medium.safetensors use_reprompt あり。duration・seed・category指定可。こちらを使う
Stable Audio 3.0 Medium Base stable_audio_3_medium_base.safetensors ファインチューニング前の素モデル。通常は使わない

テンプレートをクリックするとワークフローが読み込まれる。

Stable Audio 3のComfyUIワークフロー全体図

ワークフローの基本設定:

  • モデル選択:読み込んだモデルフォルダを選択する
  • Prompt:生成したい音のテキスト説明を入力
  • Duration(秒):生成したい長さを秒単位で指定

設定が完了したら「Queue」をクリックして生成開始。

実際に生成してみた

各モデルで実際に生成した音声サンプルをまとめた。環境はRTX 3070 8GB、2回目以降(キャッシュ有)の計測値。

モデル 生成時間 音声の長さ(最大) 速度感
Small-Music 約9〜15秒 90秒(最大120秒) リアルタイムの6〜10倍速
Small-SFX 約5〜6秒 10〜30秒(最大120秒) リアルタイムの5〜6倍速
Medium 約38〜86秒 150〜380秒(最大380秒) リアルタイムの4倍速

Small-Musicで試してみた

まずSmall-Musicでいくつかのジャンルを生成してみた。RTX 3070 8GBで9〜15秒で生成できる。Mediumの約半分以下の速さ。

Lo-fiヒップホップ系BGM(15.04秒で生成)

Lo-fi Hip Hop(Small-Music・90秒)

プロンプト: lo-fi hip hop, chill beats, relaxed mood, piano, vinyl crackle, 80bpm

シネマティック系(8.79秒で生成)

シネマティック(Small-Music・90秒)

プロンプト: cinematic, orchestral, emotional, strings, piano, building tension

ローファイらしい少しノイジーな質感が再現できていて、落ち着きある曲調でまったりできる。シネマティックはピアノの優しい旋律から始まり、オーケストラによる壮大な展開へと移っていく。ヒーローが戦地に赴くような緊張感と高揚感がある。

Mediumで長尺トラックを試してみた

まずデフォルト設定(duration: 150秒)でトロピカルハウス系を生成してみた。

RTX 3070 8GB で 150秒の楽曲を約38〜48秒で生成。 初回47.95秒、2回目以降はモデルキャッシュが効いて37.85秒まで短縮できた。体感より全然速い。

Tropical House(Medium・150秒)

プロンプト: Tropical house track with marimba, steel drums, soft synths, smooth bass, layered percussion, and light piano riffs for sunny chill dance vibes

軽快な音楽とマリンバの旋律が心地いい仕上がりで、そのままBGMとして使えるクオリティだった。

日本語プロンプトでも生成できた

試しに日本語でプロンプトを書いてみたら、ちゃんとイメージ通りの音楽が生成できた。

ファンタジー民族音楽(Medium・150秒)

プロンプト: ファンタジー世界の穏やかな日常、民族楽器を使った軽快な音楽、明るく楽しい雰囲気

戦闘曲も試してみた(40.06秒で生成)。

ファンタジー戦闘曲(Medium・150秒)

プロンプト: ファンタジー世界、戦闘曲、ドラムの重低音、エレキギター、シンバルのアクセント、緊張感のある旋律、BPM160

楽しげな音楽になっていてファンタジー世界に入り込んだよう。楽器の指定を増やすと音色に幅が出そうで、プロンプトの伸びしろを感じる。

気持ちの昂るかっこいい戦闘曲になった。楽器の指定を細かく追加するほど音色に幅が出てくるので、ゲームBGMを作りたい人には特におすすめ。

日本語プロンプトが使える
テキストエンコーダにQwen 3.5(多言語対応モデル)が使われているため、日本語のプロンプトでもそのまま生成できる。SunoやUdioと違い英語に翻訳しなくていいのは地味に便利。
use_reprompt 機能
ワークフローに use_reprompt というオプションがある(デフォルト: ON)。入力プロンプトをモデルが内部で補完・整形してから生成する機能で、シンプルな書き方でも精度が上がりやすい。reprompt_category で「Music」「SFX」など用途カテゴリを指定できる。

Small-SFXで効果音を試してみた

足音SE(6.31秒で生成 / duration: 10秒)

足音SE(Small-SFX・10秒)

プロンプト: footsteps on wooden floor, interior, realistic, close mic

雨のアンビエンス(5.34秒で生成 / duration: 30秒)

雨のアンビエンス(Small-SFX・30秒)

プロンプト: heavy rain, indoor atmosphere, ambient, no music

本当に階段を上っているような足音になっていてSEとしてそのまま使えそう。雨音はきれいな雨音に雷の音まで入っていて再現度が高い。どちらも数秒で生成できるので、必要なSEをその場で量産できる。

プロンプトの書き方

ジャンル・楽器・ムード・テンポ・長さをコンマで並べると結果が安定した。英語でも日本語でも動く。

プロンプト構成の基本:

[ジャンル], [楽器/音色], [ムード], [テンポ/BPM]

用途別プロンプト例(英語):

用途 プロンプト例
動画BGM(落ち着き系) lo-fi hip hop, piano, chill, relaxed mood, 80bpm
ゲームSE(武器) sword slash, metallic, sharp, impact sound effect
アンビエンス forest ambience, birds, wind, morning, peaceful
シネマティック cinematic, orchestral, epic strings, emotional, building
シンセウェーブ synthwave, retro, 80s, electronic, pulsing bass

日本語プロンプト例:

用途 プロンプト例
ゲームBGM(ファンタジー・日常) ファンタジー世界の穏やかな日常、民族楽器を使った軽快な音楽、明るく楽しい雰囲気
ゲームBGM(バトル) ファンタジー世界、戦闘曲、ドラムの重低音、エレキギター、シンバルのアクセント、緊張感のある旋律、BPM160
和風アンビエンス 日本の神社、静かな雰囲気、琴と尺八、穏やかな自然の音
Duration(生成秒数)の指定
Small-MusicとSmall-SFXは最大120秒(2分)、Mediumは最大380秒(約6分20秒)。390秒以上は生成できるが末尾がぶつ切りになるため、380秒が実用上の上限。長尺トラックでも380秒以内に収めるのがおすすめ。まず30〜90秒から試して、良い結果が出たら伸ばしていくといい。

よくある疑問


QStable Audio 3は無料で使えますか?
A

モデル自体は無料でダウンロードできる。Comfy-Org経由であればライセンス同意も不要で、HuggingFaceのアカウントがあればそのままDLできる。商用利用についてはStability AI Community Licenseで詳細を確認してほしい。

QどのバージョンのComfyUIが必要ですか?
A

ComfyUI v0.22.0以上が必要。ComfyUI Managerの「Update All」でComfyUI本体を最新版にアップデートすれば対応できる。

QGPUのVRAMはどれくらい必要ですか?
A

Mediumは RTX 3070 8GB(VRAM 8GB)で動作確認済み。RTX 3070で150秒の楽曲が約48秒で生成できた。Small-Music・Small-SFXはより軽量なため、8GB以下でも動く可能性が高い。CPUでも動作可能だが生成時間は大幅に長くなる。ローカルGPUがない場合はRunPodなどのクラウドGPUでも動作する。

Q生成した音声を商用利用できますか?
A

Stability AI Community Licenseの条件内であれば商用利用可能。年間収益100万ドル未満であればコミュニティライセンス(無料)で対応できる。生成したコンテンツの著作権は利用者に帰属する。テキストエンコーダのT5-GemmaにはGemma Terms of Useが適用されるが、こちらも商用利用は可能。有害コンテンツの生成など禁止用途に抵触しなければ問題ない。

Q前世代のStable Audio Openとどう違いますか?
A

最大生成長が約47秒から最大約6分20秒(Mediumの場合)へと大幅に伸びた。音楽的な構成力も向上しており、より長く一貫した楽曲が生成できる。また、商用ライセンス済みデータで訓練されている点も改善されている。

まとめ

Stable Audio 3はComfyUIへのネイティブ対応によって、カスタムノードなしでローカル音楽生成ができるようになった。

  • Small-SFX:効果音・SE・短いアンビエンス向け
  • Small-Music:BGM・ループ素材・短い楽曲向け(まず試すならここから)
  • Medium:最大約6分の長尺楽曲向け、音楽的な構成力が高い

商用ライセンス対応と長尺生成は従来のローカルモデルでは弱点だった部分なので、動画制作やゲーム開発でBGM・SEが必要な人には特に試してほしい。

RunPodでクラウドGPUを使いたい場合は以下の記事も参考にどうぞ。RunPodでComfyUIを使う方法では、クラウド環境での起動から生成までを解説している。

RunPodでComfyUIを使う方法|モデル追加・ワークフロー実行・画像保存まで解説
RunPodでComfyUIを開く方法から、モデル・LoRA・VAEの配置場所、ワークフローJSONの読み込み、画像生成、保存、Pod停止、よくあるエラー対処まで初心者向けに解説します。起動後に何をすればよいか迷う人向けの実用ガイドとしてまとめました。
RunPodの始め方|登録・クレジット購入・ComfyUI起動まで完全ガイド【2026年版】
RunPodのアカウント登録・クレジット購入・Pod作成・ComfyUI起動まで画面スクショ付きで解説。GPU不要でAI画像生成を始めたい初心者向けに、料金確認、停止忘れ、起動後に読むべきComfyUI使い方記事への導線まで丁寧にまとめました。

コメント