https://github.com/litagin02/Style-Bert-VITS2 のapiを試してみた。やりたいことは「自分」と「V」の会話。
音声で入力した内容をopenai apiに渡して回答文章を生成してもらい、作成した音声モデルで読み上げたい。
アプローチとしては
- Style-Bert-VITS2 エディターに手を加えて、生成した文章をエディターのフォームに入力させて音声生成(Style-Bert-VITS2のapiを使わない)
- 新規でページを作って音声入力、文章生成したものをStyle-Bert-VITS2のapiに渡して読み上げてもらう。
の2つを考えたが、色々試した結果後者を選んだ。APIを使うことが目的だったのと、後者の方が早く作れそうだった。
できたもの: https://twitter.com/hayapi_ppb/status/1766385116711104543
開発自体はgpt大先生の力を借りて割とサクッとできたが、API起動するのにPythonのインストールでめちゃくちゃ時間を溶かして疲弊した。最新の3.12.2で試していたが全然うまくいかず、前に動いていたものも動かなくなり、3.11に下げたら動いた。早く開発したいのに環境構築で時間取られるのがすごくしんどかった。
今日作ったものはもちろんやりたいことではあったが、本当の目的は読み上げ音声とリップシンクを合わせること。次はそれをやるぞ~
ショートは昨日のバータイム。ポルカ推していこう。