2024/03/10

昨日作ったアプリの続きの話。

自分が喋った内容を書き起こして、文章生成、モデルに読ませて、音声ファイルをDLするところまではできた。自分的には満たしたい要件はこれでOK。

お風呂入っているときにアイデアが降りてきた。簡単に言えば、ゆっくり動画の音声ファイルが1ボタンで作れるんじゃん。と。

一番有名な、ゆっくり霊夢・魔理沙の掛け合いもAIに書かせて音声作らせるっていうのはもうすでにプログラミングされてるはず(調べてないけど)。少なくとも文字起こしはやっていそう。ゆっくりムービーメーカーもあるし。

音声モデルを2つ作って、AとB会話のラリーを一つの音声ファイルにする実装をやってみる。人間が喋らなくても中の人がいなくても良い。これは面白そうだな~。今はhtml + JSだけなので、バックエンドやUIも良い感じにしよう。音声サーバーは自分のパソコンで立てないといけないので自宅でしか検証できないのがもどかしいところ。

ショート動画はAIドルグループ。一番踊りが可愛い動画だが、これ四分割にしたらめっちゃいいんじゃね??と我ながら良い発想だったと思う。動画編集ソフトのFilmoraはMac版とWindows版で別ライセンスらしく、この動画を作るためだけに9k課金したと言っても過言ではない。まあ後々Winのパソコンでも動画編集したい時が来るし良いか。