ニューラルネットワークに基づく音声波形生成モデル

「ニューラルネットワークに基づく音声波形生成モデル」デモサイト

[English version] [個人HPトップページ]
最終更新日 : 2022年6月11日 (JETSサンプル追加)
今後も順次サンプルやモデルを追加予定(サンプリング周波数やLJSpeechのテストセットも合わせます)

解説記事

岡本拓磨，"ニューラルネットワークに基づく音声波形生成モデル"，日本音響学会誌，vol. 78, no. 6, pp. 328–337, June 2022.

原音

英語

CMU ARCTIC slt (24 kHz)	CMU ARCTIC bdl (24 kHz)	LJSpeech 001-0001 (22.05 kHz)	LJSpeech 050-0029 (22.05 kHz)

HiFi TTS 92_clean (22.05 kHz)	HiFi TTS 92_clean (44.1 kHz)	HiFi TTS 9017_clean (22.05 kHz)	HiFi TTS 9017_clean (44.1 kHz)

日本語

JSUT (24 kHz)	JSUT (44.1 kHz)	jvs004 (24 kHz)	jvs001 (24 kHz)

条件なしWaveNet (9 bit，ノイズシェーピング)

slt	bdl

WaveNet vocoder (9 bit，メルスペクトログラム，ノイズシェーピング)

slt	bdl	jsut

Multi-speaker WaveNet vocoder (9 bit，jvs005-jvs100で学習，ノイズシェーピング)

jvs004 (未知話者)	jvs001 (未知話者)	slt (クロスリンガル条件)	bdl (クロスリンガル条件)

LPCNet

slt	bdl	JSUT

WaveGlow

slt (1時間未満では厳しい)	bdl (同様)	LJSpeech	JSUT

Parallel WaveGAN

slt	bdl	LJSpeech	JSUT

HiFi-GAN

LJSpeech

HiFi TTS 92_clean (22.05 kHz)	HiFi TTS 92_clean (44.1 kHz)	HiFi TTS 9017_clean (22.05 kHz)	HiFi TTS 9017_clean (44.1 kHz)

JSUT (22.05 kHz)	JSUT (44.1 kHz)

DiffWave (10サブモデリング，反復25回[フィボナッチ])

slt	bdl	LJSpeech

Multi-speaker DiffWave (VCTKコーパスで学習，10サブモデリング，反復25回[フィボナッチ])

slt (未知話者)	bdl (未知話者)	LJSpeech (未知話者)

Entire end-to-end neural text-to-speech: VITS

slt (1時間未満でもそこそこ動く!!)	bdl (同様)	LJSpeech

HiFi TTS 92_clean (22.05 kHz)	HiFi TTS 92_clean (44.1 kHz)	HiFi TTS 9017_clean (22.05 kHz)	HiFi TTS 9017_clean (44.1 kHz)

JSUT (22.05 kHz)	JSUT (44.1 kHz)

Pipeline neural text-to-speech: Conformer-FastSpeech 2 + HiFi-GAN (Joint fine-tuning適用済)

LJSpeech

HiFi TTS 92_clean (22.05 kHz)	HiFi TTS 92_clean (44.1 kHz)	HiFi TTS 9017_clean (22.05 kHz)	HiFi TTS 9017_clean (44.1 kHz)

JSUT (22.05 kHz)	JSUT (44.1 kHz)

Entire end to end text-to-speech: JETS (FastSpeech 2 + HiFi-GAN) [学習中]

(新し過ぎるため)解説記事では引用しておりません

slt (trainable with few data!!)(1時間未満でもそこそこ動く!!)	bdl (同様)	LJSpeech

HiFi TTS 92_clean (22.05 kHz)	HiFi TTS 92_clean (44.1 kHz)	HiFi TTS 9017_clean (22.05 kHz)	HiFi TTS 9017_clean (44.1 kHz)

JSUT (22.05 kHz)	JSUT (44.1 kHz)

Pipeline neural text-to-speech: Conformer-FastSpeech 2 + HiFi-GAN (Joint fine-tuning適用済)

LJSpeech

HiFi TTS 92_clean (22.05 kHz)	HiFi TTS 92_clean (44.1 kHz)	HiFi TTS 9017_clean (22.05 kHz)	HiFi TTS 9017_clean (44.1 kHz)

JSUT (22.05 kHz)	JSUT (44.1 kHz)

Entire end to end text-to-speech: JETS (FastSpeech 2 + HiFi-GAN)

(新し過ぎるため)解説記事では引用しておりません

slt (1時間未満でも動く!!)	bdl (同様)	LJSpeech

JSUT (24 kHz)	JSUT (48 kHz, フル帯域でも動く)

更新履歴

2022年6月11日：JETSサンプル追加
2022年5月27日：デモ音声追加

謝辞

LPCNet(全て)およびParallel WaveGAN(JSUTのみ)の合成音声は神戸大学松原圭亮氏(2022年3月修了)のNICTにおける研修成果によるものである．