[AI]イメージ画像から音（BGM）を生成。Image to Music V2とImage to SFXを使用してみた感想

テキストからいろんなタイプのイメージ画像および音（BGM）を生成できるなら、

逆！！

もっできるよね？ってことで、イメージ画像から音（BGM）の生成が出来るものを探ってみたら、ありました！

Image to Music V2とImage to SFXというWebツール。

その２つを、とりあえず使用してみた感想を投稿したいと思う。

Image to Music V2
Image to SFX
1. １．それぞれのモデルのBGMを聴いてみよう
まとめ

Image to Music V2

「Image to Music V2」のページはこちらから

まずは、TOP画面がこちら。
使い方は、もうね見ればわかるぐらいのシンプルさです。

１．まずは音楽（BGM）に変換したい画像をD&Dまたはファイル選択

TOP画面の赤枠のところに、イメージ画像をD&Dまたはファイル選択をします。今回は、テストってことで、無料画像サイト：https://pixabay.com/から木漏れ日の森？の画像を使わせて頂きました。

こんな感じのイメージ画像を入れてみました。

２．音源モデルを選択

続いて、TOP画面下部にある「Choose a model」のプルダウンボタンをクリック。
すると、5つのモデルを選択できます。

MAGNet、AudioLDM-2、Riffusion、Mustango、MusicGenの5つから選べます。それぞれのモデルの意味は・・・一応、調べてみましたが、俺にはよくわからんかった。なので、それぞれのモデルで生成して、自分に逢ったものを選べば良いと思う。

・各モデルについての解釈？

MAGNet

テキストから音楽・音声へ変換するモデルです。主な構造としては、音を言葉（トークン）として扱い、Transformerなどで処理しています

AudioLDM-2

テキストからサウンドエフェクト、人間の音声、音楽を生成するAIモデル

Riffusion

文章を入力するだけで楽曲を生成してくれるAI

音楽知識が乏しい人であっても、楽しんで聞けるクオリティの楽曲をAIによって作成することができるサービスです。歌詞のみならず、曲調もプロンプトを用いて指定することができるのが大きな特徴と言えます

Mustango

マンゴモデルは、自然言語プロンプトを使用して音楽を生成する革新的なモデルです。大規模なデータセットを活用し、高精度な音楽生成が可能です。

MusicGen

プロンプト（命令文）や既存のメロディーから音楽を生成できる音楽自動生成ツール。テキストにより作曲したい音楽の説明文を入力すると約12秒のオーディオを作成できるほか、口笛や、ハミング、既存の曲（MP3形式）などからメロディーの候補となる音源も参照できる

てな感じらしいですわ（笑

３．いよいよ生成！

モデルを選択したら、生成です。
赤枠のボタンをクリックすれば生成が始まります。少々の間で作成してくれます。
出来上がると・・・

こんな感じになります。

赤枠のところにイメージ画像を文章にしたプロンプトが英文で表示されます。
グーグルさんに翻訳してもらわんと、意味不明ですがねｗ

そして、次の赤枠のところにBGMの波形と再生ボタンが表示されます。
生成される時間は、10秒。と短いですが、ちょっとしたBGMというか短い音がほしい場面とかに会いそうです。

また、ちょっと注意事項ですが、再生させる前に、

音量を調整しておくことをオススメします！！

俺はいつもPCで音楽聞くときはイヤホンを使用しているのですが、再生させたらいきなりの爆音でビックリしてしまったんで・・・ご注意ください。

４．生成したBGMのダウンロード

赤枠のところに、下に向かった矢印がありますんで、こちらのボタンを押せばダウンロードできます。あとは、お好きなところにダウンロードすれば良いかと。

５．それぞれのモデルのBGMを聴いてみよう

ご注意！！聴くときは、まず、音量を調整してから聴いてください！！！

・MAGNet

・AudioLDM-2

・Riffusion

・Mustango

・MusicGen

６．このボタンは・・・

さて、最後に・・・
波形の上にボタンがあるんですが、「Retry with edited prompt」。

出来上がったプロンプトを手直してして、再度、BGMの生成を行うみたいですが、もしかしたら、これを何回も使ってやれば長尺のBGMが出来るんではないだろうか？と思いました。

ただぁ、あんまテストしている時間がなかったんで、次回にでも試してみますかね？

Image to SFX

「Image to SFX」のページはこちらから

さて、お次は、Image to SFXなのですが・・・
こちらも、イメージ画像をD＆Dおよびファイル選択で変換してくれるのですが、画面構成はほぼ先ほどのImage to Music V2と変わりません。

ですが、初期でイメージ画像が貼られているので、まずこれを削除（画像右上に×印があります）して、変換させたいイメージ画像を入れて下さいな。

んで、あとこちらの詳細手順はImage to Music V2と変わらないので、割愛させて頂きます。

１．それぞれのモデルのBGMを聴いてみよう

ご注意！！聴くときは、まず、音量を調整してから聴いてください！！！

・MAGNet（ほとんど、ノイズや！！）

・AudioLDM-2（甲高い音や！鼓膜が痛い）

まとめ

さて、2つの変換AIツールを使用しての感想ですが・・・

どちらもまだ、これからって感じでしょうか？とくに、Image to SFXはまだ未完成ってな感じを受けました。

サンプルを聴いて頂いたかとは思いますが、音の生成モデルであるMAGNet。どちらツールでも選択できるのですが、Image to SFXで生成されたほうは、もうほとんど不快感がハンパない音になっていました。まぁ、使用したイメージ画像のせい？なのかはまだ、判明しませんが、Image to Music V2の方がきれいでしたｗ

完全？無料っぽいんで、なんかに使えないですかねぇ～？