https://github.com/litagin02/Style-Bert-VITS2 を試してみる。
READMEに乗っている手順でインストール。GitやPythonに馴染みが無い方はzipファイルを展開すれば簡単にインストールできるので安心。
localhostでテキストを入力し、設定を調整して音声合成ボタンを押せば音声ファイルを出力できる。ダウンロードも可能。抑揚や感情なども簡単に調整できる。
音声データを録音すればモデルの学習も可能なのでやってみたい。自分の声だと自分が興味ないので、ぴのちゃんか誰かに撮ってもらうか。モデルの学習はさすがにパソコンのスペックを要求されるが、本物に近いパソコンを買ったのでやれる。
とはいえ、自分のチャンネルで配信するときはぴのちゃんが喋ってくれるので、用途として使う場面あるか悩ましいところ。テキストで起こして喋ってもらうことが必要そうな動画を作るときは役立ちそう。
ショート動画はさだ。