Stable Audio v2.0を試してみる

2024年 04月 29日月曜日

StableAudio

概要

4/3、高品質な音楽や音声を自動生成してくれる「Stable Audio 2.0」がStability AIが公開された
- 44.1kHzステレオの音楽が生成できる
- 1曲最大3分
- T2AやA2Aも可能
- 20クレジットは無料で使える
近日中にAPIも公開されるらしい

試してみる(Text To Audio)

Input Data
- Prompt
  - 呪文を打ち込める
- Prompt Library
  - 呪文テンプレ集。曲のジャンルを選ぶと、基本的な呪文が自動でPromptにセットされる
- Model
  - Stable Audio Audiosparx 1.0：従来のやつ。1クレジット使用する
  - Stable Audio Audiosparx 2.0：高品質なやつ。2クレジット使用する。最大3分の曲を作るならコレしかない
- Duration
  - 曲の長さを指定できる
- Input audio
  - 自家栽培の歌や曲をアップロードできる。これをベースにして曲が作れるみたい
- Add extras
  - Steps
    - たぶんStep数が上がると生成時間を犠牲にして高品質な曲ができる
  - Seed
    - たぶん固定にすると生成に再現性が生まれる
  - Prompt strength
    - たぶんどれくらい呪文を遵守するかの強弱が設定できる

所感

今のところボーカル生成には対応していない模様
歌詞を入力すると、いい感じにボーカル曲を作ってくれるSunoと比べると、まだまだ実用性は低い気がする
- 曲の長さは、Sunoが最大2分、Stable Audioが最大3分だが、それを大きい差と捉えるか否かにもよるかも？
呪文を入力する感覚は画像生成AIのStable Diffusionに近い。故に、既にStable Diffutionを触ったことがある人には分かりやすい
楽曲に関する呪文は非常に細かい気がするため、目的の楽曲ができるまで苦労しそう

この記事をシェア

2020-2026

弊社では、一緒に会社を面白くしてくれる仲間を募集しています。
お気軽にお問い合わせください！

P.S. よろしければこちらもどうぞ
新明工業クラシックカーレストア blog — クラシックカーのレストアのお仕事の一部を公開しています。
新明工業コンベア blog — コンベアに関する技術情報を発信しています。