正弦波入力型ニューラルボコーダを用いた TTS モデルによる歌声合成

清水聡太,岡本拓磨,高島遼一,大谷大和,滝口哲也,戸田智基,河井恒

サンプル音声 (JSUT,サンプリング周波数 24 KHz)

通常発話音声(原音)

基本周波数1.0倍条件
WORLD HiFi-GAN Harmonic-Net+ SiFi-GAN

基本周波数0.5倍条件
WORLD HiFi-GAN Harmonic-Net+ SiFi-GAN

基本周波数2.0倍条件
WORLD HiFi-GAN Harmonic-Net+ SiFi-GAN