要約
Stable Audio 3はStability AIが開発した音声・音楽生成AIモデルで、2026年5月にComfyUI v0.22.0へのネイティブ対応が発表された。効果音向けの「Small-SFX」、BGM・ループ向けの「Small-Music」、長尺楽曲向けの「Medium」の3種類があり、商用ライセンス済みデータで訓練されている点が特徴。この記事ではHuggingFaceからのモデルダウンロード・ComfyUIへの配置・テンプレート起動の手順と、各モデルで実際に生成した音声サンプルをまとめた。
はじめに
AI音楽生成ツールといえばSunoやUdioが有名だけど、ComfyUIでローカル動作できるモデルとなるとまだ選択肢が少ない。
そんな中、2026年5月にStability AIが「Stable Audio 3」を発表し、同日ComfyUI v0.22.0でネイティブサポートが追加された。テンプレートから1クリックで起動でき、以前のStable Audio Open(最大47秒)から大幅に進化して最大約6分20秒の楽曲が生成できる。
実際に動かしてどんな音が出るのかを確かめてみたのでまとめる。
Stable Audio 3とは
Stable Audio 3は、すべて商用ライセンス済みのデータで訓練されたテキスト→音声生成モデル。前世代のStable Audio Open(最大47秒)と比べて生成長が大幅に伸び、音楽的な構成力も向上している。
ComfyUI v0.22.0以上に標準搭載されており、カスタムノードの追加なしでそのまま使える。
3つのモデルの特徴
| モデル | ファイルサイズ | 最大生成長 | 主な用途 |
|---|---|---|---|
| Small-SFX | 約2.3GB | 2分(120秒) | 効果音・アンビエンス・SE |
| Small-Music | 約2.3GB | 2分(120秒) | BGM・ループ・短い楽曲 |
| Medium | 約7GB | 約6分20秒(380秒) | 長尺楽曲・本格的な音楽制作 |
Small-SFXとSmall-Musicはモデルサイズが同じで、訓練データと得意な用途が異なる。まず試すならSmall-Musicからがおすすめ。Mediumは高品質な分、ダウンロードと生成に時間がかかる。
ComfyUIへの導入手順
ComfyUI v0.22.0以上が必要。まだアップデートしていない場合は、ComfyUI Managerの「Update All」で最新版にしておく。ComfyUIのインストール自体がまだの場合はComfyUIインストールガイドを参照。
ComfyUI用には Comfy-Orgが公式リパックしたファイルを使う。stabilityai/ 直ではなく Comfy-Org/stable-audio-3 リポジトリからDLするのが正しい手順。ライセンス同意は不要で、HuggingFaceのアカウントがあればそのままDLできる。
チェックポイント(使いたいモデルを選んでDL):
- Small-Music(BGM・ループ向け):
checkpoints/stable_audio_3_small_music.safetensors— 約2.3GB - Small-SFX(効果音向け):
checkpoints/stable_audio_3_small_sfx.safetensors— 約2.3GB - Medium(長尺楽曲向け):
checkpoints/stable_audio_3_medium.safetensors— 約7GB
テキストエンコーダ(別途DLが必要):
t5gemma_b_b_ul2.safetensors:Comfy-Org/stable-audio-3 のtext_encoders/以下qwen3.5_2b_bf16.safetensors:Comfy-Org/Qwen3.5 のtext_encoders/以下
hfコマンドでまとめてDLするのが楽:
# チェックポイント(例:Small-Music)
hf download Comfy-Org/stable-audio-3 \
checkpoints/stable_audio_3_small_music.safetensors
# テキストエンコーダ(2つ)
hf download Comfy-Org/stable-audio-3 \
text_encoders/t5gemma_b_b_ul2.safetensors
hf download Comfy-Org/Qwen3.5 \
text_encoders/qwen3.5_2b_bf16.safetensors

ダウンロードしたファイルを以下の構成で配置する。フォルダは不要で、checkpoints/ 直下にファイルを置くだけ。
ComfyUI/
└── models/
├── checkpoints/
│ ├── stable_audio_3_medium.safetensors
│ ├── stable_audio_3_small_music.safetensors ← Small-Music使う場合
│ └── stable_audio_3_small_sfx.safetensors ← Small-SFX使う場合
└── text_encoders/
├── t5gemma_b_b_ul2.safetensors ← sa_clip(全モデル共通)
└── qwen3.5_2b_bf16.safetensors ← qwen_clip(Medium使用・実機確認済み)
テキストエンコーダは models/text_encoders/ に配置する点に注意。チェックポイントと場所が違う。

テキストエンコーダは models/text_encoders/ に入れる。

ComfyUIを起動(または再起動)して、左サイドバーのTemplateを開く。カテゴリからAudioを選ぶと「Stable Audio 3」のテンプレートが表示される。

テンプレートは「Stable Audio 3.0 Medium」と「Stable Audio 3.0 Medium Base」の2つがある。Baseなしを選ぶのが正解。
| テンプレート | モデル | 違い |
|---|---|---|
| Stable Audio 3.0 Medium | stable_audio_3_medium.safetensors |
use_reprompt あり。duration・seed・category指定可。こちらを使う |
| Stable Audio 3.0 Medium Base | stable_audio_3_medium_base.safetensors |
ファインチューニング前の素モデル。通常は使わない |
テンプレートをクリックするとワークフローが読み込まれる。

ワークフローの基本設定:
- モデル選択:読み込んだモデルフォルダを選択する
- Prompt:生成したい音のテキスト説明を入力
- Duration(秒):生成したい長さを秒単位で指定
設定が完了したら「Queue」をクリックして生成開始。
実際に生成してみた
各モデルで実際に生成した音声サンプルをまとめた。環境はRTX 3070 8GB、2回目以降(キャッシュ有)の計測値。
| モデル | 生成時間 | 音声の長さ(最大) | 速度感 |
|---|---|---|---|
| Small-Music | 約9〜15秒 | 90秒(最大120秒) | リアルタイムの6〜10倍速 |
| Small-SFX | 約5〜6秒 | 10〜30秒(最大120秒) | リアルタイムの5〜6倍速 |
| Medium | 約38〜86秒 | 150〜380秒(最大380秒) | リアルタイムの4倍速 |
Small-Musicで試してみた
まずSmall-Musicでいくつかのジャンルを生成してみた。RTX 3070 8GBで9〜15秒で生成できる。Mediumの約半分以下の速さ。
Lo-fiヒップホップ系BGM(15.04秒で生成)
プロンプト: lo-fi hip hop, chill beats, relaxed mood, piano, vinyl crackle, 80bpm
シネマティック系(8.79秒で生成)
プロンプト: cinematic, orchestral, emotional, strings, piano, building tension
ローファイらしい少しノイジーな質感が再現できていて、落ち着きある曲調でまったりできる。シネマティックはピアノの優しい旋律から始まり、オーケストラによる壮大な展開へと移っていく。ヒーローが戦地に赴くような緊張感と高揚感がある。
Mediumで長尺トラックを試してみた
まずデフォルト設定(duration: 150秒)でトロピカルハウス系を生成してみた。
RTX 3070 8GB で 150秒の楽曲を約38〜48秒で生成。 初回47.95秒、2回目以降はモデルキャッシュが効いて37.85秒まで短縮できた。体感より全然速い。
プロンプト: Tropical house track with marimba, steel drums, soft synths, smooth bass, layered percussion, and light piano riffs for sunny chill dance vibes
軽快な音楽とマリンバの旋律が心地いい仕上がりで、そのままBGMとして使えるクオリティだった。
日本語プロンプトでも生成できた
試しに日本語でプロンプトを書いてみたら、ちゃんとイメージ通りの音楽が生成できた。
プロンプト: ファンタジー世界の穏やかな日常、民族楽器を使った軽快な音楽、明るく楽しい雰囲気
戦闘曲も試してみた(40.06秒で生成)。
プロンプト: ファンタジー世界、戦闘曲、ドラムの重低音、エレキギター、シンバルのアクセント、緊張感のある旋律、BPM160
楽しげな音楽になっていてファンタジー世界に入り込んだよう。楽器の指定を増やすと音色に幅が出そうで、プロンプトの伸びしろを感じる。
気持ちの昂るかっこいい戦闘曲になった。楽器の指定を細かく追加するほど音色に幅が出てくるので、ゲームBGMを作りたい人には特におすすめ。
use_reprompt というオプションがある(デフォルト: ON)。入力プロンプトをモデルが内部で補完・整形してから生成する機能で、シンプルな書き方でも精度が上がりやすい。reprompt_category で「Music」「SFX」など用途カテゴリを指定できる。Small-SFXで効果音を試してみた
足音SE(6.31秒で生成 / duration: 10秒)
プロンプト: footsteps on wooden floor, interior, realistic, close mic
雨のアンビエンス(5.34秒で生成 / duration: 30秒)
プロンプト: heavy rain, indoor atmosphere, ambient, no music
本当に階段を上っているような足音になっていてSEとしてそのまま使えそう。雨音はきれいな雨音に雷の音まで入っていて再現度が高い。どちらも数秒で生成できるので、必要なSEをその場で量産できる。
プロンプトの書き方
ジャンル・楽器・ムード・テンポ・長さをコンマで並べると結果が安定した。英語でも日本語でも動く。
プロンプト構成の基本:
[ジャンル], [楽器/音色], [ムード], [テンポ/BPM]
用途別プロンプト例(英語):
| 用途 | プロンプト例 |
|---|---|
| 動画BGM(落ち着き系) | lo-fi hip hop, piano, chill, relaxed mood, 80bpm |
| ゲームSE(武器) | sword slash, metallic, sharp, impact sound effect |
| アンビエンス | forest ambience, birds, wind, morning, peaceful |
| シネマティック | cinematic, orchestral, epic strings, emotional, building |
| シンセウェーブ | synthwave, retro, 80s, electronic, pulsing bass |
日本語プロンプト例:
| 用途 | プロンプト例 |
|---|---|
| ゲームBGM(ファンタジー・日常) | ファンタジー世界の穏やかな日常、民族楽器を使った軽快な音楽、明るく楽しい雰囲気 |
| ゲームBGM(バトル) | ファンタジー世界、戦闘曲、ドラムの重低音、エレキギター、シンバルのアクセント、緊張感のある旋律、BPM160 |
| 和風アンビエンス | 日本の神社、静かな雰囲気、琴と尺八、穏やかな自然の音 |
よくある疑問
モデル自体は無料でダウンロードできる。Comfy-Org経由であればライセンス同意も不要で、HuggingFaceのアカウントがあればそのままDLできる。商用利用についてはStability AI Community Licenseで詳細を確認してほしい。
ComfyUI v0.22.0以上が必要。ComfyUI Managerの「Update All」でComfyUI本体を最新版にアップデートすれば対応できる。
Mediumは RTX 3070 8GB(VRAM 8GB)で動作確認済み。RTX 3070で150秒の楽曲が約48秒で生成できた。Small-Music・Small-SFXはより軽量なため、8GB以下でも動く可能性が高い。CPUでも動作可能だが生成時間は大幅に長くなる。ローカルGPUがない場合はRunPodなどのクラウドGPUでも動作する。
Stability AI Community Licenseの条件内であれば商用利用可能。年間収益100万ドル未満であればコミュニティライセンス(無料)で対応できる。生成したコンテンツの著作権は利用者に帰属する。テキストエンコーダのT5-GemmaにはGemma Terms of Useが適用されるが、こちらも商用利用は可能。有害コンテンツの生成など禁止用途に抵触しなければ問題ない。
最大生成長が約47秒から最大約6分20秒(Mediumの場合)へと大幅に伸びた。音楽的な構成力も向上しており、より長く一貫した楽曲が生成できる。また、商用ライセンス済みデータで訓練されている点も改善されている。
まとめ
Stable Audio 3はComfyUIへのネイティブ対応によって、カスタムノードなしでローカル音楽生成ができるようになった。
- Small-SFX:効果音・SE・短いアンビエンス向け
- Small-Music:BGM・ループ素材・短い楽曲向け(まず試すならここから)
- Medium:最大約6分の長尺楽曲向け、音楽的な構成力が高い
商用ライセンス対応と長尺生成は従来のローカルモデルでは弱点だった部分なので、動画制作やゲーム開発でBGM・SEが必要な人には特に試してほしい。
RunPodでクラウドGPUを使いたい場合は以下の記事も参考にどうぞ。RunPodでComfyUIを使う方法では、クラウド環境での起動から生成までを解説している。



コメント