Stable Audio v2.0を試してみる

概要

  • 4/3、高品質な音楽や音声を自動生成してくれる「Stable Audio 2.0」がStability AIが公開された
    • 44.1kHzステレオの音楽が生成できる
    • 1曲最大3分
    • T2AやA2Aも可能
    • 20クレジットは無料で使える
  • 近日中にAPIも公開されるらしい

試してみる(Text To Audio)

image 001

  • Input Data
    • Prompt
      • 呪文を打ち込める
    • Prompt Library
      • 呪文テンプレ集。曲のジャンルを選ぶと、基本的な呪文が自動でPromptにセットされる
    • Model
      • Stable Audio Audiosparx 1.0:従来のやつ。1クレジット使用する
      • Stable Audio Audiosparx 2.0:高品質なやつ。2クレジット使用する。最大3分の曲を作るならコレしかない
    • Duration
      • 曲の長さを指定できる
    • Input audio
      • 自家栽培の歌や曲をアップロードできる。これをベースにして曲が作れるみたい
    • Add extras
      • Steps
        • たぶんStep数が上がると生成時間を犠牲にして高品質な曲ができる
      • Seed
        • たぶん固定にすると生成に再現性が生まれる
      • Prompt strength
        • たぶんどれくらい呪文を遵守するかの強弱が設定できる

所感

  • 今のところボーカル生成には対応していない模様
  • 歌詞を入力すると、いい感じにボーカル曲を作ってくれるSunoと比べると、まだまだ実用性は低い気がする
    • 曲の長さは、Sunoが最大2分、Stable Audioが最大3分だが、それを大きい差と捉えるか否かにもよるかも?
  • 呪文を入力する感覚は画像生成AIのStable Diffusionに近い。故に、既にStable Diffutionを触ったことがある人には分かりやすい
  • 楽曲に関する呪文は非常に細かい気がするため、目的の楽曲ができるまで苦労しそう
この記事をシェア

2020-2026
弊社では、一緒に会社を面白くしてくれる仲間を募集しています。
お気軽にお問い合わせください!
P.S. よろしければこちらもどうぞ
新明工業クラシックカーレストア blog — クラシックカーのレストアのお仕事の一部を公開しています。
新明工業コンベア blog — コンベアに関する技術情報を発信しています。