正弦波入力型ニューラルボコーダを用いた TTS モデルによる歌声合成
清水聡太,岡本拓磨,高島遼一,大谷大和,滝口哲也,戸田智基,河井恒
サンプル音声 (JSUT,サンプリング周波数 24 KHz)
通常発話音声(原音)
基本周波数1.0倍条件
WORLD
HiFi-GAN
Harmonic-Net+
SiFi-GAN
基本周波数0.5倍条件
WORLD
HiFi-GAN
Harmonic-Net+
SiFi-GAN
基本周波数2.0倍条件
WORLD
HiFi-GAN
Harmonic-Net+
SiFi-GAN