https://github.com/litagin02/Style-Bert-VITS2

 の続き。音声データを学習させてモデルを作った。

ぴのちゃんに喋ってもらった音声を学習させてモデルを作成し、音声を読ませるところまでできた。音声データは例文を3パターンくらい、15秒くらいのwavデータを準備すればOKだった。テキスト準備すればナチュラルに読んでくれる。

精度としては今のままで十分だと思うが、理想形に近づけるのであればもっと色んなパターンを読ませる必要があるのかな～。あとは自分の理想に近づける必要があるので、元のボイチェンの調整をする必要がある。違和感無い程度で、高い声で、特徴のある声にしたい。

ショートは焼肉のおがわ。昨年できたお店で行ってみたかったお店。意外と混んでなかったし最高だった。ナナヲアカリを推していきたい。

2024/03/05