○要約 (任意): | □ | (英) In this research, we develop a Japanese speech synthesis system that can express emotions using a deep learning-based method.In this study, we construct a Japanese speech synthesizer that can express emotions using a method based on deep learning. Using Tacotron2 as a reference, we aim to build a speech synthesizer with expressive power close to that of human voice. The final training data is the voice of Ms. Tomonatsu Toto from the statistical corpus of voice actors (10 minutes each of normal, happy, and angry speech). However, since this dataset alone is not enough to train Tacotron2, we solved the problem by training a model on a large-scale corpus (LJ Speech) and adding additional training to this model. In addition, we express emotion by assigning an emotion label to each character in the input text. The model constructed by this method can express not only one emotion for an entire text, but also can change the emotion in the middle of the text. (日) 本研究では,深層学習に基づいた手法で感情表現が可 能な日本語音声合成システムを構築する. Tacotron2 を参考にし, 人間の音声に近い表現力のある音声合成 器を構築することを目的とする. 声優統計コーパスの 藤東知夏氏の音声 (通常・喜び・怒りの感情で読まれ た音声が各10分) を最終的な学習データとする. しか し, このデータセットだけではTacotron2 の学習デー タとしては少ないので, 大規模コーパス (LJ Speech) でモデルを学習しておき, このモデルに追加学習をす ることで問題解決を行った. また, 入力テキストに対 して一文字ごとに感情のラベルを付与することで感 情表現を行う. この方法により構築されたモデルでは 一つのテキスト全体に対して一つの感情を表現でき るだけではなく, テキストの途中で感情を変えること ができる.
| [継承] |