Stable Audio 3をComfyUIで使う方法｜3モデルを実際に生成して検証

⚠️ 注意: AI画像生成時は著作権・肖像権にご注意ください。商用利用前には各サービスの利用規約をご確認ください。当ブログは生成された画像に関する責任を負いかねます。

要約

Stable Audio 3はStability AIが開発した音声・音楽生成AIモデルで、2026年5月にComfyUI v0.22.0へのネイティブ対応が発表された。効果音向けの「Small-SFX」、BGM・ループ向けの「Small-Music」、長尺楽曲向けの「Medium」の3種類があり、商用ライセンス済みデータで訓練されている点が特徴。この記事ではHuggingFaceからのモデルダウンロード・ComfyUIへの配置・テンプレート起動の手順と、各モデルで実際に生成した音声サンプルをまとめた。

はじめに

AI音楽生成ツールといえばSunoやUdioが有名だけど、ComfyUIでローカル動作できるモデルとなるとまだ選択肢が少ない。

そんな中、2026年5月にStability AIが「Stable Audio 3」を発表し、同日ComfyUI v0.22.0でネイティブサポートが追加された。テンプレートから1クリックで起動でき、以前のStable Audio Open（最大47秒）から大幅に進化して最大約6分20秒の楽曲が生成できる。

実際に動かしてどんな音が出るのかを確かめてみたのでまとめる。

Stable Audio 3とは

Stable Audio 3は、すべて商用ライセンス済みのデータで訓練されたテキスト→音声生成モデル。前世代のStable Audio Open（最大47秒）と比べて生成長が大幅に伸び、音楽的な構成力も向上している。

ComfyUI v0.22.0以上に標準搭載されており、カスタムノードの追加なしでそのまま使える。

モチベル

Stable Audio 3って商用OKなの？

クーラット

Stability AI Community Licenseの条件内なら商用利用できる。テキストエンコーダのT5-GemmaはGoogleのモデルだけど、Gemma ToUも商用OKで、有害用途の禁止が主な制限だよ。

3つのモデルの特徴

モデル	ファイルサイズ	最大生成長	主な用途
Small-SFX	約2.3GB	2分（120秒）	効果音・アンビエンス・SE
Small-Music	約2.3GB	2分（120秒）	BGM・ループ・短い楽曲
Medium	約7GB	約6分20秒（380秒）	長尺楽曲・本格的な音楽制作

Small-SFXとSmall-Musicはモデルサイズが同じで、訓練データと得意な用途が異なる。まず試すならSmall-Musicからがおすすめ。Mediumは高品質な分、ダウンロードと生成に時間がかかる。

ライセンスについて

Comfy-Org版はStability AI Community Licenseの再配布条項に基づいて公開されており、ライセンス同意なしでダウンロードできる。ダウンロード後の利用は同ライセンスに従う必要があるが、個人・法人問わず年間収益100万ドル未満であればコミュニティライセンス（無料）で商用利用可能。生成したコンテンツの著作権は利用者に帰属する。年間収益100万ドル以上になった場合はEnterpriseライセンスへの切り替えが必要で、超過後にそのまま利用を続けるとライセンスが自動終了する。詳細はライセンス全文を確認すること。テキストエンコーダのT5-GemmaにはGemma Terms of Useが適用されるが、こちらも商用利用は可能で、有害コンテンツ生成・違法利用などの禁止用途が制限の中心となっている。

ComfyUIへの導入手順

ComfyUI v0.22.0以上が必要。まだアップデートしていない場合は、ComfyUI Managerの「Update All」で最新版にしておく。ComfyUIのインストール自体がまだの場合はComfyUIインストールガイドを参照。

HuggingFaceからモデルをダウンロードする

ComfyUI用には Comfy-Orgが公式リパックしたファイルを使う。stabilityai/ 直ではなく Comfy-Org/stable-audio-3 リポジトリからDLするのが正しい手順。ライセンス同意は不要で、HuggingFaceのアカウントがあればそのままDLできる。

チェックポイント（使いたいモデルを選んでDL）：

Small-Music（BGM・ループ向け）：checkpoints/stable_audio_3_small_music.safetensors — 約2.3GB
Small-SFX（効果音向け）：checkpoints/stable_audio_3_small_sfx.safetensors — 約2.3GB
Medium（長尺楽曲向け）：checkpoints/stable_audio_3_medium.safetensors — 約7GB

テキストエンコーダ（別途DLが必要）：

t5gemma_b_b_ul2.safetensors：Comfy-Org/stable-audio-3 の text_encoders/ 以下
qwen3.5_2b_bf16.safetensors：Comfy-Org/Qwen3.5 の text_encoders/ 以下

hfコマンドでまとめてDLするのが楽：

# チェックポイント（例：Small-Music）
hf download Comfy-Org/stable-audio-3 \
  checkpoints/stable_audio_3_small_music.safetensors

# テキストエンコーダ（2つ）
hf download Comfy-Org/stable-audio-3 \
  text_encoders/t5gemma_b_b_ul2.safetensors

hf download Comfy-Org/Qwen3.5 \
  text_encoders/qwen3.5_2b_bf16.safetensors

モデルとテキストエンコーダをComfyUIに配置する

ダウンロードしたファイルを以下の構成で配置する。フォルダは不要で、checkpoints/ 直下にファイルを置くだけ。

ComfyUI/
└── models/
    ├── checkpoints/
    │   ├── stable_audio_3_medium.safetensors
    │   ├── stable_audio_3_small_music.safetensors  ← Small-Music
    │   └── stable_audio_3_small_sfx.safetensors    ← Small-SFX
    └── text_encoders/
        ├── t5gemma_b_b_ul2.safetensors             ← sa_clip（全モデル共通）
        └── qwen3.5_2b_bf16.safetensors             ← qwen_clip

テキストエンコーダは models/text_encoders/ に配置する点に注意。チェックポイントと場所が違う。

テキストエンコーダは models/text_encoders/ に入れる。

ComfyUIのテンプレートからワークフローを起動する

ComfyUIを起動（または再起動）して、左サイドバーのTemplateを開く。カテゴリからAudioを選ぶと「Stable Audio 3」のテンプレートが表示される。

テンプレートは「Stable Audio 3.0 Medium」と「Stable Audio 3.0 Medium Base」の2つがある。Baseなしを選ぶのが正解。

テンプレート	モデル	違い
Stable Audio 3.0 Medium	`stable_audio_3_medium.safetensors`	`use_reprompt` あり。duration・seed・category指定可。こちらを使う
Stable Audio 3.0 Medium Base	`stable_audio_3_medium_base.safetensors`	ファインチューニング前の素モデル。通常は使わない

テンプレートをクリックするとワークフローが読み込まれる。

ワークフローの基本設定：

モデル選択：読み込んだモデルフォルダを選択する
Prompt：生成したい音のテキスト説明を入力
Duration（秒）：生成したい長さを秒単位で指定

設定が完了したら「Queue」をクリックして生成開始。

実際に生成してみた

各モデルで実際に生成した音声サンプルをまとめた。環境はRTX 3070 8GB、2回目以降（キャッシュ有）の計測値。

モデル	生成時間	音声の長さ（最大）	速度感
Small-Music	約9〜15秒	90秒（最大120秒）	リアルタイムの6〜10倍速
Small-SFX	約5〜6秒	10〜30秒（最大120秒）	リアルタイムの5〜6倍速
Medium	約38〜86秒	150〜380秒（最大380秒）	リアルタイムの4倍速

Small-Musicで試してみた

まずSmall-Musicでいくつかのジャンルを生成してみた。RTX 3070 8GBで9〜15秒で生成できる。Mediumの約半分以下の速さ。

Lo-fiヒップホップ系BGM（15.04秒で生成）

Lo-fi Hip Hop（Small-Music・90秒）

プロンプト: lo-fi hip hop, chill beats, relaxed mood, piano, vinyl crackle, 80bpm

シネマティック系（8.79秒で生成）

シネマティック（Small-Music・90秒）

プロンプト: cinematic, orchestral, emotional, strings, piano, building tension

ローファイらしい少しノイジーな質感が再現できていて、落ち着きある曲調でまったりできる。シネマティックはピアノの優しい旋律から始まり、オーケストラによる壮大な展開へと移っていく。ヒーローが戦地に赴くような緊張感と高揚感がある。

Mediumで長尺トラックを試してみた

まずデフォルト設定（duration: 150秒）でトロピカルハウス系を生成してみた。

RTX 3070 8GB で 150秒の楽曲を約38〜48秒で生成。 初回47.95秒、2回目以降はモデルキャッシュが効いて37.85秒まで短縮できた。体感より全然速い。

Tropical House（Medium・150秒）

プロンプト: Tropical house track with marimba, steel drums, soft synths, smooth bass, layered percussion, and light piano riffs for sunny chill dance vibes

軽快な音楽とマリンバの旋律が心地いい仕上がりで、そのままBGMとして使えるクオリティだった。

日本語プロンプトでも生成できた

試しに日本語でプロンプトを書いてみたら、ちゃんとイメージ通りの音楽が生成できた。

ファンタジー民族音楽（Medium・150秒）

プロンプト: ファンタジー世界の穏やかな日常、民族楽器を使った軽快な音楽、明るく楽しい雰囲気

戦闘曲も試してみた（40.06秒で生成）。

ファンタジー戦闘曲（Medium・150秒）

プロンプト: ファンタジー世界、戦闘曲、ドラムの重低音、エレキギター、シンバルのアクセント、緊張感のある旋律、BPM160

楽しげな音楽になっていてファンタジー世界に入り込んだよう。楽器の指定を増やすと音色に幅が出そうで、プロンプトの伸びしろを感じる。

気持ちの昂るかっこいい戦闘曲になった。楽器の指定を細かく追加するほど音色に幅が出てくるので、ゲームBGMを作りたい人には特におすすめ。

日本語プロンプトが使える

テキストエンコーダにQwen 3.5（多言語対応モデル）が使われているため、日本語のプロンプトでもそのまま生成できる。SunoやUdioと違い英語に翻訳しなくていいのは地味に便利。

use_reprompt 機能

ワークフローに use_reprompt というオプションがある（デフォルト: ON）。入力プロンプトをモデルが内部で補完・整形してから生成する機能で、シンプルな書き方でも精度が上がりやすい。reprompt_category で「Music」「SFX」など用途カテゴリを指定できる。

Small-SFXで効果音を試してみた

足音SE（6.31秒で生成 / duration: 10秒）

足音SE（Small-SFX・10秒）

プロンプト: footsteps on wooden floor, interior, realistic, close mic

雨のアンビエンス（5.34秒で生成 / duration: 30秒）

雨のアンビエンス（Small-SFX・30秒）

プロンプト: heavy rain, indoor atmosphere, ambient, no music

本当に階段を上っているような足音になっていてSEとしてそのまま使えそう。雨音はきれいな雨音に雷の音まで入っていて再現度が高い。どちらも数秒で生成できるので、必要なSEをその場で量産できる。

プロンプトの書き方

ジャンル・楽器・ムード・テンポ・長さをコンマで並べると結果が安定した。英語でも日本語でも動く。

プロンプト構成の基本：

[ジャンル], [楽器/音色], [ムード], [テンポ/BPM]

用途別プロンプト例（英語）：

用途	プロンプト例
動画BGM（落ち着き系）	`lo-fi hip hop, piano, chill, relaxed mood, 80bpm`
ゲームSE（武器）	`sword slash, metallic, sharp, impact sound effect`
アンビエンス	`forest ambience, birds, wind, morning, peaceful`
シネマティック	`cinematic, orchestral, epic strings, emotional, building`
シンセウェーブ	`synthwave, retro, 80s, electronic, pulsing bass`

日本語プロンプト例：

用途	プロンプト例
ゲームBGM（ファンタジー・日常）	`ファンタジー世界の穏やかな日常、民族楽器を使った軽快な音楽、明るく楽しい雰囲気`
ゲームBGM（バトル）	`ファンタジー世界、戦闘曲、ドラムの重低音、エレキギター、シンバルのアクセント、緊張感のある旋律、BPM160`
和風アンビエンス	`日本の神社、静かな雰囲気、琴と尺八、穏やかな自然の音`

Duration（生成秒数）の指定

Small-MusicとSmall-SFXは最大120秒（2分）、Mediumは最大380秒（約6分20秒）。390秒以上は生成できるが末尾がぶつ切りになるため、380秒が実用上の上限。長尺トラックでも380秒以内に収めるのがおすすめ。まず30〜90秒から試して、良い結果が出たら伸ばしていくといい。

よくある疑問

QStable Audio 3は無料で使えますか？

モデル自体は無料でダウンロードできる。Comfy-Org経由であればライセンス同意も不要で、HuggingFaceのアカウントがあればそのままDLできる。商用利用についてはStability AI Community Licenseで詳細を確認してほしい。

QどのバージョンのComfyUIが必要ですか？

ComfyUI v0.22.0以上が必要。ComfyUI Managerの「Update All」でComfyUI本体を最新版にアップデートすれば対応できる。

QGPUのVRAMはどれくらい必要ですか？

Mediumは RTX 3070 8GB（VRAM 8GB）で動作確認済み。RTX 3070で150秒の楽曲が約48秒で生成できた。Small-Music・Small-SFXはより軽量なため、8GB以下でも動く可能性が高い。CPUでも動作可能だが生成時間は大幅に長くなる。ローカルGPUがない場合はRunPodなどのクラウドGPUでも動作する。

Q生成した音声を商用利用できますか？

Stability AI Community Licenseの条件内であれば商用利用可能。年間収益100万ドル未満であればコミュニティライセンス（無料）で対応できる。生成したコンテンツの著作権は利用者に帰属する。テキストエンコーダのT5-GemmaにはGemma Terms of Useが適用されるが、こちらも商用利用は可能。有害コンテンツの生成など禁止用途に抵触しなければ問題ない。

Q前世代のStable Audio Openとどう違いますか？

最大生成長が約47秒から最大約6分20秒（Mediumの場合）へと大幅に伸びた。音楽的な構成力も向上しており、より長く一貫した楽曲が生成できる。また、商用ライセンス済みデータで訓練されている点も改善されている。