5秒の音声データからAI音声を生成できるGPT-SoVITSの使い方

AI

5秒の音声データからAI音声を生成できるGPT-SoVITSの使い方

2025年5月23日

このページには広告が含まれています

GPT-SoVITSは、数秒程度の音声サンプルから、似た声の音声を生成できるTTSです。これにより、自分の声や、好きな声を使って、AIボイスを簡単に生成することができます。この記事では、Windowsのローカル環境でGPT-SoVITSを実行する方法をご紹介します。

GPT-SoVITSとは

GPT-SoVITSの機能と特徴、この記事の最終目的についてご紹介します。

GPT-SoVITSの画面 1

GPT-SoVITSの概要

GPT-SoVITS」とは、音声変換(Voice Conversion、VC)と音声合成(Text-to-Speech、TTS)を組み合わせ、さらにWebUIから使えるようにした、統合ツールです。

簡単に言うと、入力したテキストを好きな声で読み上げさせることができるツールで、日本語にも対応しています。

「GPT」がどのように発音するのかを決めるモデルで、「SoVITS」が音声を生成したり変換したりするモデルです。

オープンソースで開発されており、無料で使用することができます。

ゲーミングPC程度のスペックがあれば、ローカル環境で実行することもできます。

この記事では、Windowsのローカル環境で実行する方法をご紹介しています。

GPT-SoVITSの機能

GPT-SoVITSは、以下のような機能を持っています。

ゼロショットTTS

3~10秒程度の音声サンプルから、似た声の音声を生成できます。

ファインチューニング

1分程度の音声データから、精度を向上させることができます。

音声データ処理

音声分割、ノイズ除去、テキスト変換(ASR)、ラベル付けなどの機能も備えています。

ボイスチェンジャー

今後、実装予定とのことです。

この記事の目的

今回の最終目的は、好きな声で喋るAivisSpeechの音声モデルを作成し、AIチャットシステムのSillyTavernと連携させることです。

この記事では、GPT-SoVITSを利用して、音声モデルの訓練用データを生成するところまでをご紹介しています。

訓練用データの準備をしているだけではありますが、GPT-SoVITS単体で見ても、なかなか面白いと思います。

AivisSpeechとSillyTavernを使って、CotomoのようなおしゃべりAIを完全ローカルで実行する方法
AivisSpeechとSillyTavernを使って、CotomoのようなおしゃべりAIを完全ローカルで実行する方法

オリジナルキャラクターや、AI彼氏・AI彼女と音声チャットを楽しみたい、でもCotomoのようなクラウドサービスはプライバシーが心配、という方向けに、全てWindowsローカル環境で動作するシステムを ...

GPT-SoVITSの使い方

Windowsのローカル環境にGPT-SoVITSをインストールし、数秒のサンプル音声から、AI合成音声を出力するまでをご紹介します。

GPT-SoVITSの画面 2

サンプル音声の準備

まず、3~10秒のwavデータが必要となります。

mp3等は使用できません。

10秒以上の長さでも使用できません。

BGMやノイズが乗っておらず、できるだけ高品質なものが望ましいです。

実はこの後の作業より、サンプル音声データを用意する作業の方が面倒と言えるかもしれません。

ここでは既に準備ができているものとします。

Windowsへのインストール

GPT-SoVITSのインストールは、基本的にはcondaやDockerを使うようになっていますが、Windows用のパッケージも用意されています。

しかしGitHubからダウンロードできるパッケージは、少し古いようです。

GPT-SoVITS GitHubからのダウンロード

そこで、有志がHuggingFaceで公開している、最新版のパッケージを利用します。

上記ページを開き、最新の日付のもの(ここではGPT-SoVITS-v4-20250422fix.7z)をダウンロードします。

ファイル名に「nvidia50」と付いているものは、NVIDIA GeForce RTX 50xxシリーズに最適化されたものです。

お持ちの方は、そちらを選んでください。

GPT-SoVITS HuggingFaceからのダウンロード

7zで圧縮されているので、7-Zip等を使用して、任意のフォルダに展開をしてください。

必要なものは全て含まれています。

WebUIの起動

ファイルが展開できたら、フォルダの中の「go-webui.bat」をダブルクリックして実行するだけなのですが、このままだと中国語で起動してしまいます。

GPT-SoVITS WebUIの起動 2

そこでまず、「go-webui.bat」をメモ帳で開きます。

GPT-SoVITS WebUIの起動 1

「zh_CN」の文字を削除し、上書き保存します。

消すだけで大丈夫です。

自動的に日本語になります。

GPT-SoVITS WebUIの起動 3

go-webui.batをダブルクリックして実行すると、コマンドプロンプトが開きますので、しばらく待ちます。

起動するまでに、数分かかるかもしれません。

GPT-SoVITS WebUIの起動 4

ファイアウォールの警告が表示された場合は、許可します。

GPT-SoVITS WebUIの起動 5

自動的にブラウザで「http://localhost:9874」が開き、以下のような画面となれば成功です。

GPT-SoVITS WebUIの起動 6

「1-GPT-SoVITS-TTS」タブを選択し、バージョンで「v4」を選択します。

GPT-SoVITS WebUIの起動 7

「1C-推論」タブを選択し、「有効化TTS推論WebUI」をクリックします。

GPT-SoVITS WebUIの起動 8

別ウィンドウで「http://localhost:9872/」が開くまで、数分待ちます。

サンプル音声の登録

別ウィンドウが開いたら、用意していたサンプル音声をアップロードします。

GPT-SoVITS 参照音声 1

音声のテキストを手入力します。

参照オーディオの言語で「日本語」を選択します。

GPT-SoVITS 参照音声 2

音声生成

以上で準備は整いました。

「推論テキスト」に、喋らせたいテキストを入力します。

「推論の言語対応を減らしたほうが良い」は、「日本語」を選択します。

「推論を開始」をクリックすれば、短いものであれば数秒で音声が生成されます。

GPT-SoVITS 音声生成

生成される音声は毎回異なるので、何回か試してみて、良い結果だったものをダウンロードしましょう。

今回は単体での利用方法としてご紹介しましたが、次回以降で、音声モデルの訓練用データとして使用したいと思います。

まとめ GPT-SoVITSの使い方とは

GPT-SoVITSは、5秒程度の音声データから、似た声の音声を生成できるTTSです。

Windowsであれば、ファイルを展開するだけで、簡単に使用することができます。

単体で使用しても面白いですが、音声AIモデルの訓練用データを、大量生成するといった使い方もできます。

自分の声を使用するのならばいいのですが、他人の声を使用する場合は、法的に問題がある場合がありますのでご注意ください。

著:會田武史
¥1,672 (2025/05/23 15:24時点 | Amazon調べ)

おすすめ記事

【2025年版】目的別おすすめVPNサービス 1

毎日いろいろなVPNアプリを検証している管理人が、これはいい!と思ったサービスを、目的別にご紹介します。すべて自信を持っておすすめできます。 ポイント 有料のおすすめVPNサービス 無料のおすすめVP ...

-AI
-