Style-Bert-VITS2で音声学習し、AivisSpeechのモデルに変換する方法

AI

Style-Bert-VITS2で音声学習し、AivisSpeechのモデルに変換する方法

2025年5月28日

このページには広告が含まれています

一般的に、好きな声で喋るTTS(Text-to-Speech)モデルを作成するには、学習用データを用意することが大変ですが、Style-Bert-VITS2とGPT-SoVITSを組み合わせれば、数秒の音声ファイルから作成することができます。さらにAivisSpeechのモデルに変換し、SillyTavernと連携すれば、好きな声で喋るAI彼氏、AI彼女を作ることも可能です。この記事では、その手順を、分かりやすく解説しています。

GPT-SoVITSで音声データを生成し、Style-Bert-VITS2で学習する方法

数秒の音声ファイルと、ChatGPTで作成した台本を使い、GPT-SoVITSで音声ファイルを大量作成し、Style-Bert-VITS2に学習させる方法を解説します。

Style-Bert-VITS2の画面 01

Style-Bert-VITS2とは

Style-Bert-VITS2」とは、感情やスタイルを制御する機能を備えた、音声合成(TTS)モデルです。

名前がややこしいのですが、以下の技術を組み合わせたことを意味しています。

  • VITS(Variational Inference Text-to-Speech): 自然な音声とリアルタイム性を両立したTTSモデル
  • VITS2: VITSの進化系で、より高品質な音声を生成
  • BERT(Bidirectional Encoder Representations from Transformers): Googleが開発した、テキストの文脈を理解するモデル
  • Style-Bert: BERTを使って、テキストから感情を推定し、話し方の「スタイル」を決める手法

これにより、Style-Bert-VITS2は、テキストから感情豊かな音声を生成することができるモデルとなっています。

オープンソースで開発されており、無料で使用することができます。

ただしモデルを公開する際は、非商用であったとしても、著作権、肖像権、パブリシティ権など多くの法的問題がありますので、十分にご注意ください。

今回の目的と作業の流れ

今回の目的は、「自分の好きな声で喋る音声合成モデルを作成し、AIロールプレイングシステムSillyTavernと連携する」ことです。

そのために、以下のような手順を踏みます。

  1. 数秒の音声サンプルを用意する
  2. GPT-SoVITSで大量に増幅させる
  3. Style-Bert-VITS2に学習させ、TTSモデルを作成する
  4. 使いやすいように、AivisSpeechのモデルに変換する
  5. SillyTavernと連携する

すべてWindowsのローカル環境で、無料にて、実行できます。

NVIDIAのGPUは必要となります。

長くなりますし、多少面倒ではありますが、そこまで難しくはありませんので、お付き合いいただけますと幸いです。

学習用音声データを作成する

数秒のサンプル音声から、GPT-SoVITSを使って大量の音声ファイルを作成する方法をご紹介します。

サンプル音声の用意

まず元となる音声データとして、3~10秒のwavファイルが必要となります。

ノイズがのっておらず、高音質なものが望ましいです。

ここでは、既に用意されているものとします。

ノイズ除去については、こちらの記事をご参照ください。

音声ファイルからBGMやノイズを除去するAudacityとOpenVINOプラグインの使い方
音声ファイルからBGMやノイズを除去するAudacityとOpenVINOプラグインの使い方

2025/5/30    ,

TTSで音声学習をしようとする際、高品質な音声データが必要となりますが、BGMやノイズが入っていたりして、なかなか適切な素材を用意することは大変です。Audacityを使用すれば、完璧ではありませんが ...

台本の用意

この音声ファイルをもとに、GPT-SoVITS(これもTTSモデル)を使って、別の音声ファイルを作成してきます。

そこで、何を喋るのかというテキストが必要となるのですが、ChatGPTに作成してもらいました。

Style-Bert-VITS2 学習用音声の台本

学習用データとして、どの程度の量が必要なのかは、やってみないと分からないということなのですが、とりあえず例文100個用意しました。

サンプルとして、CSVファイルを置いておきます。

雑に作成しただけであり、特に最適化されている訳でもないので、参考程度としてください。

また、今回実際に使用しているのはD列のみです。

感情タグは、何かの時に使えるかもしれないということで、残してあります。

GPT-SoVITSで音声データを生成

サンプル音声と台本を使って、GPT-SoVITSで音声ファイルを生成していきます。

詳細は、下記の記事をご参照ください。

5秒の音声データからAI音声を生成できるGPT-SoVITSの使い方
5秒の音声データからAI音声を生成できるGPT-SoVITSの使い方

2025/5/30    , , ,

GPT-SoVITSは、数秒程度の音声サンプルから、似た声の音声を生成できるTTSです。これにより、自分の声や、好きな声を使って、AIボイスを簡単に生成することができます。この記事では、Windows ...

audio_001.wavからaudio_100.wavまで、100個のファイルが作成されることになります。

今回は、音声を確認しながら手動で行いましたが、もっと数を増やすのであれば、APIを使った一括処理の検討をしてもいいかもしれません。

ファイルリストの作成

作成した音声ファイルと、文字起こししたテキストを対応付けた「esd.list」というテキストファイルを作成します。

Style-Bert-VITS2 学習用音声のesd.list

フォーマットは、以下のようになっています。

音声ファイル名|モデル名|言語|テキスト

サンプルとしてファイルを置いておきます。ファイル名を「esd.list」に変更してください。

このファイルは、後ほど使用します。

Style-Bert-VITS2で音声学習する

生成した音声ファイルを使用し、Style-Bert-VITS2で学習し、オリジナルのTTSモデルを作成します。

Style-Bert-VITS2のインストール

Windowsに「Style-Bert-VITS2」をインストールします。

GitHubのページを開き、「このzipファイル」からファイルをダウンロードします。

Style-Bert-VITS2 Windowsへのインストール 01

任意のフォルダに展開します。

「sbv2」というフォルダが作成されると思います。

その中にある「Install-Style-Bert-VITS2.bat」をダブルクリックして実行します。

Style-Bert-VITS2 Windowsへのインストール 02

コマンドプロンプトが開き、インストールが開始されます。

おそらく数十分かかると思います。

Style-Bert-VITS2 Windowsへのインストール 03

途中でファイアウォールの警告が表示された場合は、「許可」してください。

Style-Bert-VITS2 Windowsへのインストール 04

ブラウザで「http://localhost:8000/」が開き、以下のような画面となれば完了です。

利用規約を読み、「同意する」をクリックします。

Style-Bert-VITS2 Windowsへのインストール 05

音声合成のテスト

Style-Bert-VITS2は、デフォルトのモデルを内蔵しているので、このまま音声合成をすることもできます。

Style-Bert-VITS2 デフォルトモデルの音声合成 01

「テキスト」を入力し、「音声合成」をクリックします。

Style-Bert-VITS2 デフォルトモデルの音声合成 02

正常に生成されることが確認できたら、この画面はもう使用しないので、ブラウザのタブとコマンドプロンプトは閉じておきます。

WebUIの起動

「sbv2\Style-Bert-VITS2」フォルダの「App.bat」をダブルクリックして実行します。

Style-Bert-VITS2 音声学習 04

ブラウザで「http://127.0.0.1:7860/」が開き、以下のような画面となります。

Style-Bert-VITS2 音声学習 05

データセットの準備

次に、学習用音声データファイルを準備します。

この作業は「データセット作成」タブで行うこともできるのですが、今回は前作業で済んでいるので、手動でファイルを配置していきます。

Style-Bert-VITS2 音声学習 06

「sbv2\Style-Bert-VITS2\Data」フォルダに、「モデル名」(ここではtest_speaker)フォルダを作成します。

Style-Bert-VITS2 音声学習 01

そのフォルダの中に、「raw」フォルダを作成します。

また上記で用意した「esd.list」ファイルを置きます。

Style-Bert-VITS2 音声学習 02

「raw」フォルダの中に、音声ファイルを置きます。

Style-Bert-VITS2 音声学習 03

以上で、準備は完了です。

学習の開始

ブラウザの画面に戻り、「学習」タブを選択します。

「モデル名」を正確に入力し、「自動前処理を実行」をクリックします。

完了まで、そこまで時間はかからないと思います。

Style-Bert-VITS2 音声学習 07

「学習を開始する」をクリックします。

Style-Bert-VITS2 音声学習 08

コマンドプロンプトで進行状況を確認できます。

私の環境では、100ファイルで、ちょうど1時間ほどかかりました。

Style-Bert-VITS2 音声学習 09

完了すると、「sbv2\Style-Bert-VITS2\model_assets」フォルダに、モデル名のフォルダが作成されています。

Style-Bert-VITS2 音声学習 10

フォルダの中はこのような感じです。

必要なのは「config.json」、「style_vectors.npy」、最後に作成された「.safetensors」の3つです。

その他は、処理を中断した時に再開できるように、一時保存されたものです。

Style-Bert-VITS2 音声学習 11

作成したモデルのテスト

作成したモデルを使って、さっそく音声合成をテストしてみましょう。

「音声合成」タブを選択します。

Style-Bert-VITS2 作成したモデルの音声合成 01

「更新」をしてから、モデルを「ロード」します。

「テキスト」を入力し、「音声合成」をクリックします。

Style-Bert-VITS2 作成したモデルの音声合成 02

出来上がった声が、元の声と似ているかと言われれば、30点くらいでしょうか。

声質は似ていると思います。

しかし声が似ているというのは、話す速度、抑揚、言葉の選び方などが総合的に関係してくるので、それはまた別問題となります。

5秒のサンプル音声から、ここまで似せることができるのであれば、かなりいいのではないかと思います。

Style-Bert-VITS2のモデルをAivisSpeech用に変換する方法

Style-Bert-VITS2で作成したオリジナルTTSモデルを、AivisSpeechで利用できるように変換する方法をご紹介します。

Style-Bert-VITS2の画面 02

AivisSpeechのインストール

Style-Bert-VITS2のモデルは、そのままでも使えますが、AivisSpeechで使える形に変換することで、モデルの切り替えや配布が簡単になります。

AivisSpeechのインストールと使い方は、下記の記事をご参照ください。

AivisSpeechとSillyTavernを使って、CotomoのようなおしゃべりAIを完全ローカルで実行する方法
AivisSpeechとSillyTavernを使って、CotomoのようなおしゃべりAIを完全ローカルで実行する方法

オリジナルキャラクターや、AI彼氏・AI彼女と音声チャットを楽しみたい、でもCotomoのようなクラウドサービスはプライバシーが心配、という方向けに、全てWindowsローカル環境で動作するシステムを ...

ONNXファイルの準備

AivisSpeechのモデルを作成するには、「Safetensors」と「ONNX」の2つのファイルが必要となります。

Safetensorsファイルは既にありますが、ONNXファイルがありません。

これを用意する必要があります。

Aivis Projectの変換ツールがまだ使えない

AivisSpeechでは、SafetensorsからONNXに変換するツールも用意しています。

Aivis Project」のサイトにアクセスし、「AI音声合成をつくる」をクリックします。

AIVM Generator 01

「AIVMファイルを作る」をクリックっします。

AIVM Generator 02

ONNXモデルへの変換ツールは、現在開発中とあります。

2025年5月中に実装予定とのことですが、5月27日現在、まだ使用できませんでした。

AIVM Generator 03

Style-Bert-VITS2の開発バージョンを取得する

そこで、Style-Bert-VITS2の機能を使って、手動でONNXモデルに変換していきます。

開発版を取得する必要があるため、少し手間ではあります。

コマンドプロンプトを開き、「sbv2\Style-Bert-VITS2」フォルダに移動します。

次のコマンドを順番に実行します。

git checkout dev
git pull origin dev
SafetensorsからONNXへの変換 01

一つ上のフォルダの「Update-Style-Bert-VITS2.bat」を実行します。

SafetensorsからONNXへの変換 02

完了まで、少し時間がかかるかもしれません。

SafetensorsからONNXへの変換 03

変換スクリプトの実行

元のフォルダに戻り、以下のコマンドを実行し、仮想環境を有効にします。

.\venv\Script\activate
SafetensorsからONNXへの変換 04

仮想環境で次のコマンドを実行し、SafetensorsからONNXに変換をします。

「convert_onnx.py」と「convert_bert_onnx.py」があるので、ご注意ください。

「convert_onnx.py」の方です。

python convert_onnx.py --model .\model_assets\【モデル名】
SafetensorsからONNXへの変換 05

変換が完了すると、以下のように「.onnx」ファイルが作成されます。

(必要なファイルは最新のものだけなので、事前に削除しておけばよかったかもしれません)

SafetensorsからONNXへの変換 06

AIVMファイルの作成

「config.json」「style_vectors.npy」「.safetensors」「.onnx」ファイルを使い、AivisSpeech用のモデルを作成します。

AIVM Generatorの実行

AIVM Generatorのページに戻り、作成したファイルをアップロードします。

AIVM Generator 04

メタデータは自動的に入力されます。

必要であれば、モデルの説明を追記してください。

今回はモデルの公開・配布を行いませんが、公開する場合はライセンスをよく確認する必要があります。

AIVM Generator 05

必要であれば、アイコンの変更や、ボイスサンプルの登録を行います。

AIVM Generator 06

「上記メタデータでAIVM/AIVMXファイル(.aivm/.aivmx)を生成」をクリックします。

すぐに完了し、ファイルがダウンロードされます。

AIVM Generator 07

AIVMモデルの読み込み

AivisSpeechを起動し、実際に音声合成をしてみましょう。

「設定」から「音声合成モデルの管理」をクリックします。

AivisSpeechにモデルのインストール 01

右上の「インストール/更新」をクリックします。

AivisSpeechにモデルのインストール 02

ダウンロードした「.aivmx」ファイルを選択し、右下の「インストール/更新」をクリックします。

AivisSpeechにモデルのインストール 03

モデルが読み込まれました。

この画面でさみしいので、アイコンの変更や、ボイスサンプルの登録は行っておいた方がいいと思います。

AivisSpeechにモデルのインストール 04

もちろん、テキストから音声合成をしたり、アクセントを変更したりすることができます。

AivisSpeechにモデルのインストール 05

SillyTavernとの連携

ここまでくれば、SillyTavernと連携し、自分で作成したキャラクターに、自分の好きな声で喋らせることができるようになります。

AivisSpeechとSillyTavernを使って、CotomoのようなおしゃべりAIを完全ローカルで実行する方法
AivisSpeechとSillyTavernを使って、CotomoのようなおしゃべりAIを完全ローカルで実行する方法

オリジナルキャラクターや、AI彼氏・AI彼女と音声チャットを楽しみたい、でもCotomoのようなクラウドサービスはプライバシーが心配、という方向けに、全てWindowsローカル環境で動作するシステムを ...

AivisBuilderを待とう

こんな面倒な作業はやっていられない!

という方も多いと思います。

上記の作業を全てまとめて実行できる、AivisBuilderを開発中とのことなので、それを待ちましょう。

2025年の夏頃に公開予定です。

AivisBuilder

まとめ Style-Bert-VITS2の使い方とは

Style-Bert-VITS2は、感情豊かな音声を生成できるTTSモデルです。

Style-Bert-VITS2に、好きな声で喋らせるように学習させるには、大量の音声データが必要となります。

GPT-SoVITSを利用すれば、数秒の音声データから、音声データを大量生成できます。

これにより、好きな声で喋るオリジナルのTTSモデルを、簡単に作成することができます。

さらに、AivisSpeech用のモデルに変換すれば、モデルの管理が容易になります。

SillyTavernと連携すれば、好きな声で喋る、AI彼氏・AI彼女を作ることも可能です。

外部に公開する際は、権利関係をよく確認するようにしましょう。

著:會田武史
¥1,672 (2025/05/23 15:24時点 | Amazon調べ)
\楽天ポイント4倍セール!/
楽天市場

おすすめ記事

【2025年版】目的別おすすめVPNサービス 1

毎日いろいろなVPNアプリを検証している管理人が、これはいい!と思ったサービスを、目的別にご紹介します。すべて自信を持っておすすめできます。 ポイント 有料のおすすめVPNサービス 無料のおすすめVP ...

-AI
-, , ,