「ACE-Step」と「ComfyUI」でローカル環境で簡単にAI音楽生成する方法

AI

「ACE-Step」と「ComfyUI」でローカル環境で簡単にAI音楽生成する方法

このページには広告が含まれています

音楽生成AI ACE-Stepの環境構築をすることは、技術的なハードルが高かったのですが、ComfyUIから利用できるようになったことで、一気にハードルが下がりました。ローカル環境で音楽生成AIを実行できれば、何回やり直しても無料ですし、誰かの目を気にする必要もありません。この記事では、Stability Matrix、ComfyUI、ACE-Stepを使い、Windowsのローカル環境でAI音楽生成をする方法を解説します。

ローカルで音楽生成できるAI ACE-Stepとは

  • ACE-Stepの概要
  • 推奨スペックは?
  • 無料で利用できる?
  • 商用利用できる?
  • クォリティは?
Ace-Step コンセプト画像

ACE-Stepの概要

ACE-Step」は、オープンソースで開発されている音楽生成AIです。

ローカル環境で実行することができ、インターネット接続を必要としません。

テキストからの音楽生成、歌詞からのメロディとボーカル作成、音楽のアレンジなどができます。

「ACE-Step」は、「ACE Studio」と「StepFun」という2つの団体により開発されており、それが名前の由来となっています。

推奨スペックは?

ACE-Stepは、VRAM 16GB以上のGPUが推奨されています。

しかし、VRAM 8GBでも余裕で動いたという報告があります。

画像生成や動画生成に比べると、比較的低スペックでも問題ないようです。

1分の音楽を生成するのに、10秒で済むのか、2分かかるのかくらいの違いだと思います。

無料で利用できる?

ACE-Stepは、ローカルで実行すれば、完全に無料で利用できます。

もちろんPCや電気代は必要となりますが、ファンがずっとブン回るということにはならないと思います。

商用利用できる?

ACE-Stepは、Apache License 2.0により公開されており、商用利用をすることもできます。

Apache License 2.0とは、利用・改変・再配布・商用利用は自由だが、配布時にライセンス表示は残す必要があるというものです。

それはソフトウェアの配布の話であり、生成物の配布や販売にライセンス表示は不要です。

しかし、学習素材によっては別のライセンス制約を受ける可能性もあるので注意が必要となります。

クォリティは?

正直なところ、日本語の歌モノについては、まったく使い物になりません。

インストゥルメンタルは、個人利用であれば、ギリギリ使えるかもしれないというところです。

商用レベルには全然達していません。

音楽制作のインスピレーションを得るにはいいかもしれないというくらいだと思います。

音楽生成AI ACE-StepをWindowsローカルで実行する方法

  • ACE-Step + ComfyUIがおすすめ
  • テンプレートの読み込み
  • テキストからインストゥルメンタル生成
  • テキストから歌
  • 音楽から音楽
  • まとめ ComfyUIを使えば音楽生成AI ACE-Stepを簡単にローカル環境で実行できる
ComfyUI Ace-Step メイン画面

ACE-Step + ComfyUIがおすすめ

ACE-Stepを実行するには、PythonやCondaが必要となりますが、Windows上に環境構築をするのはなかなか大変です。(少し試してみましたが上手くいきませんでした)

しかし、ComfyUIを使えば簡単に実現できます。

ComfyUIとは

ComfyUI」とは、ノードベースのGUIを備えた、AI操作ツールです。

もともとは「Stable Diffusion(画像生成AI)」用のUIツールでしたが、様々なモデルを扱える、汎用的なAIフレームワークへと進化しました。

Stability Matrixとは

Stablility Matrix」とは、複数のAIツールをパッケージ化し、一元管理できるランチャーです。

ツール間でモデルを共有することができるので、ディスク容量節約にもなります。

この記事では、Stability Matrix上からComfyUIを起動することを前提としていますが、ComfyUI単体で実行していただいても問題ありません。

モデルの保存場所が異なるので、そこだけ読み替えてください。

画像生成AIを簡単に管理できるComfyUIとStability Matrixの使い方
画像生成AIを簡単に管理できるComfyUIとStability Matrixの使い方

画像生成AIでは、WebUI(Automatic1111)に代わり、ComfyUIが必要となる場面が増えてきました。しかし切り替えて使用することも多いため、複数のUIツールを管理できるStabilit ...

テンプレートの読み込み

2025年5月以降(?)、ComfyUIの標準テンプレート(ワークフロー)にACE-Stepが組み込まれているので、それを呼び出すだけで利用できます。

ComfyUIを機動し、「ワークフロー」-「テンプレートを参照」をクリックします。

ComfyUI Ace-Stepのワークフロー読み込み 1

「オーディオ」をクリックします。

ACE-Stepの「テキストからインスト音楽」「テキストから歌」「M2M編集(アレンジ)」の3つのテンプレートが用意されています。

ComfyUI Ace-Stepのワークフロー読み込み 2

テンプレートを開くと、不足しているモデルを教えてくれるので、ダウンロードします。

ComfyUI Ace-Stepのワークフロー読み込み 3

ここで、ComfyUI単体で利用している場合と、Stability Matrixを利用している場合で、保存フォルダが異なります。

  • ComfyUI: models/checkpoints
  • Stability Matrix: Data/Models/StableDiffusion

対応するフォルダが分からないという場合は、起動ログで確認できます。(バージョンによって場所が変わることがあります)

ComfyUI Ace-Step 保存フォルダの確認

テキストからインストゥルメンタル生成

テンプレートを読み込むとこのような画面となり、最初はびっくりしていまいますが、編集が必要な箇所は少ないです。

ComfyUI Ace-Step テキスト to インストゥルメンタル

「Latent」で、生成する音楽の秒数を指定します。

「TextEncodeAceStepAudio」に、生成する音楽のイメージを、英語で指示します。

後は、「実行する」をクリックするだけです。

サンプルプロンプト

初期設定で、以下のプロンプトが入っていたので、そのまま実行してみました。

anime, kawaii pop, j-pop, childish, piano, guitar, synthesizer, fast, happy, cheerful, lighthearted

個々の音はそれっぽいですが、全体として音楽の体を成していないと思います。

生成時間は、初回は2分程度で、2回目以降は15秒でした。

ChatGPT作成プロンプト

ChatGPTに、ユーロビート風でいい感じの音楽生成プロンプトを作って、と雑にお願いしてみました。

その結果がこちらです。

Fast and energetic Eurobeat, BPM 155, bright major key, powerful four-on-the-floor kick, bouncy 16th-note synth bass, bright synth leads, short breakdown and build-up, catchy high-energy chorus, inspired by 1990s–2000s Initial D Eurobeat with modern production.

はるかにまとまりが良くなりました。

自分一人ではこのような適切な指示は出せないと思うので、AIにプロンプトを作る手伝いをしてもらうというのは、とても有効だと思います。

テキストから歌

歌詞を付ける場合は、「TextEncodeAceStepAudio」の下の欄に記載します。

こちらは日本語(ひらがな・カタカナ)でも大丈夫です。

ComfyUI Ace-Step テキスト to 歌

サンプルプロンプト

同じく初期設定で入っていた、プロンプトと歌詞をそのまま実行してみます。

anime, soft female vocals, kawaii pop, j-pop, childish, piano, guitar, synthesizer, fast, happy, cheerful, lighthearted
[inst]

[verse]
ふわふわ おみみが
ゆれるよ かぜのなか
きらきら あおいめ
みつめる せかいを

[verse]
ふわふわ しっぽは
おおきく ゆれるよ
きんいろ かみのけ
なびくよ かぜのなか

[verse]
コンフィーユーアイの
まもりびと
ピンクの セーターで
えがおを くれるよ

あおいろ スカートと
くろいコート きんのもよう
やさしい ひかりが
つつむよ フェネックガール

[verse]
ふわふわ おみみで
きこえる こころの こえ
だいすき フェネックガール
いつでも そばにいるよ

滅茶苦茶ですが、ボーカルの声がきれいなことにはびっくりしました。

ChatGPT作成プロンプト

先程のユーロビート風音楽にも、適当な歌詞を乗せてみます。

[inst]

[verse]
いしやーきいもー やきいもー
おいもー おいもー
やーきたてー
あつあつー ほかほかー
やーきいもー

とても酷いことになりました。

無理に日本語化するより、架空言語として作成した方がいいのではないかと思います。

音楽から音楽

こちらのテンプレートでは、「For repainting」に元となる音楽ファイルを指定します。

ComfyUI Ace-Step 音楽 to 音楽

実際にやってみたのですが、元の曲と90%同じとなりました。

アレンジというより、エフェクターを滅茶苦茶にかけまくったという感じです。

これはプロンプトだけでなく、他の設定値の調整も必要になると思います。

まとめ ComfyUIを使えば音楽生成AI ACE-Stepを簡単にローカル環境で実行できる

ACE-Stepは、ローカル環境で実行できる音楽生成AIです。

しかしその環境構築は、エンジニア以外のユーザーにとっては、少し難しいです。

ComfyUIを使えば、比較的簡単にACE-Stepを実行することができます。

そこまで高スペックPCも必要としないので、気軽に音楽生成を試すことができます。

秀和システム
¥2,620 (2025/08/15 13:36時点 | Amazon調べ)
\楽天ポイント4倍セール!/
楽天市場

-AI
-