「ニューラルネットワークに基づく音声波形生成モデル」デモサイト
[
English version] [
個人HPトップページ]
最終更新日 : 2022年6月11日 (JETSサンプル追加)
今後も順次サンプルやモデルを追加予定(サンプリング周波数やLJSpeechのテストセットも合わせます)
解説記事
岡本拓磨,"ニューラルネットワークに基づく音声波形生成モデル",日本音響学会誌,vol. 78, no. 6, pp. 328–337, June 2022.
原音
英語
CMU ARCTIC slt (24 kHz) |
CMU ARCTIC bdl (24 kHz) |
LJSpeech 001-0001 (22.05 kHz) |
LJSpeech 050-0029 (22.05 kHz) |
|
|
|
|
HiFi TTS 92_clean (22.05 kHz) |
HiFi TTS 92_clean (44.1 kHz) |
HiFi TTS 9017_clean (22.05 kHz) |
HiFi TTS 9017_clean (44.1 kHz) |
|
|
|
|
日本語
JSUT (24 kHz) |
JSUT (44.1 kHz) |
jvs004 (24 kHz) |
jvs001 (24 kHz) |
|
|
|
|
条件なしWaveNet (9 bit,ノイズシェーピング)
WaveNet vocoder (9 bit,メルスペクトログラム,ノイズシェーピング)
Multi-speaker WaveNet vocoder (9 bit,jvs005-jvs100で学習,ノイズシェーピング)
jvs004 (未知話者) |
jvs001 (未知話者) |
slt (クロスリンガル条件) |
bdl (クロスリンガル条件) |
|
|
|
|
LPCNet
WaveGlow
slt (1時間未満では厳しい) |
bdl (同様) |
LJSpeech |
JSUT |
|
|
|
|
Parallel WaveGAN
HiFi-GAN
HiFi TTS 92_clean (22.05 kHz) |
HiFi TTS 92_clean (44.1 kHz) |
HiFi TTS 9017_clean (22.05 kHz) |
HiFi TTS 9017_clean (44.1 kHz) |
|
|
|
|
JSUT (22.05 kHz) |
JSUT (44.1 kHz) |
|
|
DiffWave (10サブモデリング,反復25回[フィボナッチ])
Multi-speaker DiffWave (VCTKコーパスで学習,10サブモデリング,反復25回[フィボナッチ])
slt (未知話者) |
bdl (未知話者) |
LJSpeech (未知話者) |
|
|
|
Entire end-to-end neural text-to-speech: VITS
slt (1時間未満でもそこそこ動く!!) |
bdl (同様) |
LJSpeech |
|
|
|
HiFi TTS 92_clean (22.05 kHz) |
HiFi TTS 92_clean (44.1 kHz) |
HiFi TTS 9017_clean (22.05 kHz) |
HiFi TTS 9017_clean (44.1 kHz) |
|
|
|
|
JSUT (22.05 kHz) |
JSUT (44.1 kHz) |
|
|
Pipeline neural text-to-speech: Conformer-FastSpeech 2 + HiFi-GAN (Joint fine-tuning適用済)
HiFi TTS 92_clean (22.05 kHz) |
HiFi TTS 92_clean (44.1 kHz) |
HiFi TTS 9017_clean (22.05 kHz) |
HiFi TTS 9017_clean (44.1 kHz) |
|
|
|
|
JSUT (22.05 kHz) |
JSUT (44.1 kHz) |
|
|
Entire end to end text-to-speech: JETS (FastSpeech 2 + HiFi-GAN) [学習中]
(新し過ぎるため)解説記事では引用しておりません
slt (trainable with few data!!)(1時間未満でもそこそこ動く!!) |
bdl (同様) |
LJSpeech |
|
|
|
HiFi TTS 92_clean (22.05 kHz) |
HiFi TTS 92_clean (44.1 kHz) |
HiFi TTS 9017_clean (22.05 kHz) |
HiFi TTS 9017_clean (44.1 kHz) |
|
|
|
|
JSUT (22.05 kHz) |
JSUT (44.1 kHz) |
|
|
Pipeline neural text-to-speech: Conformer-FastSpeech 2 + HiFi-GAN (Joint fine-tuning適用済)
HiFi TTS 92_clean (22.05 kHz) |
HiFi TTS 92_clean (44.1 kHz) |
HiFi TTS 9017_clean (22.05 kHz) |
HiFi TTS 9017_clean (44.1 kHz) |
|
|
|
|
JSUT (22.05 kHz) |
JSUT (44.1 kHz) |
|
|
Entire end to end text-to-speech: JETS (FastSpeech 2 + HiFi-GAN)
(新し過ぎるため)解説記事では引用しておりません
slt (1時間未満でも動く!!) |
bdl (同様) |
LJSpeech |
|
|
|
JSUT (24 kHz) |
JSUT (48 kHz, フル帯域でも動く) |
|
|
更新履歴
2022年6月11日:JETSサンプル追加
2022年5月27日:デモ音声追加
謝辞
LPCNet(全て)およびParallel WaveGAN(JSUTのみ)の合成音声は神戸大学松原圭亮氏(2022年3月修了)のNICTにおける研修成果によるものである.