大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。続きを読む……
このサイトの記事を見る
大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。続きを読む……
このサイトの記事を見る