著作: Zolzaya Byambadorj/[西村 良太]/Ayush Altangerel/Kengo Ohta/[北岡 教英]/言語間伝達学習とデータ拡張を用いたローリソース言語のための音声合成システム/[EURASIP Journal on Audio, Speech, and Music Processing]
ヘルプを読む
「著作」(著作(著書,論文,レター,国際会議など))は,研究業績にかかる著作(著書,論文,レター,国際会議など)を登録するテーブルです. (この情報が属するテーブルの詳細な定義を見る)
- 項目名の部分にマウスカーソルを置いて少し待つと,項目の簡単な説明がツールチップ表示されます.
種別 | 必須 | 学術論文(審査論文) | |||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
言語 | 必須 | 英語 | |||||||||||||||||||||||||||||||||||||||||||||
招待 | 推奨 | ||||||||||||||||||||||||||||||||||||||||||||||
審査 | 推奨 | Peer Review | |||||||||||||||||||||||||||||||||||||||||||||
カテゴリ | 推奨 | 研究 | |||||||||||||||||||||||||||||||||||||||||||||
共著種別 | 推奨 | 国際共著(徳島大学内研究者と国外研究機関所属研究者との共同研究) | |||||||||||||||||||||||||||||||||||||||||||||
学究種別 | 推奨 | ||||||||||||||||||||||||||||||||||||||||||||||
組織 | 推奨 | ||||||||||||||||||||||||||||||||||||||||||||||
著者 | 必須 |
|
|||||||||||||||||||||||||||||||||||||||||||||
題名 | 必須 |
(英) Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation (日) 言語間伝達学習とデータ拡張を用いたローリソース言語のための音声合成システム |
|||||||||||||||||||||||||||||||||||||||||||||
副題 | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
要約 | 任意 |
(英) Deep learning techniques are currently being applied in automated text-to-speech (TTS) systems, resulting in significant improvements in performance. However, these methods require large amounts of text-speech paired data for model training, and collecting this data is costly. Therefore, in this paper, we propose a single-speaker TTS system containing both a spectrogram prediction network and a neural vocoder for the target language, using only 30 min of target language text-speech paired data for training. We evaluate three approaches for training the spectrogram prediction models of our TTS system, which produce mel-spectrograms from the input phoneme sequence: (1) cross-lingual transfer learning, (2) data augmentation, and (3) a combination of the previous two methods. In the cross-lingual transfer learning method, we used two high-resource language datasets, English (24 h) and Japanese (10 h). We also used 30 min of target language data for training in all three approaches, and for generating the augmented data used for training in methods 2 and 3. We found that using both cross-lingual transfer learning and augmented data during training resulted in the most natural synthesized target speech output. We also compare single-speaker and multi-speaker training methods, using sequential and simultaneous training, respectively. The multi-speaker models were found to be more effective for constructing a single-speaker, low-resource TTS model. In addition, we trained two Parallel WaveGAN (PWG) neural vocoders, one using 13 h of our augmented data with 30 min of target language data and one using the entire 12 h of the original target language dataset. Our subjective AB preference test indicated that the neural vocoder trained with augmented data achieved almost the same perceived speech quality as the vocoder trained with the entire target language dataset. Overall, we found that our proposed TTS system consisting of a spectrogram prediction network and a PWG neural vocoder was able to achieve reasonable performance using only 30 min of target language training data. We also found that by using 3 h of target language data, for training the model and for generating augmented data, our proposed TTS model was able to achieve performance very similar to that of the baseline model, which was trained with 12 h of target language data. (日) 現在,自動音声合成(TTS)システムに深層学習技術が適用されており,その結果,性能が大幅に向上している.しかし,これらの手法では,モデル学習のために大量のテキストと音声のペアデータが必要であり,このデータの収集にはコストがかかる.そこで,本稿では,スペクトログラム予測ネットワークとニューラルボコーダの両方を含む単一話者用TTSシステムを提案する.このシステムでは,ターゲット言語のテキストと音声のペアデータを30分程度学習するだけでよい.本研究では,入力された音素列からメル・スペクトログラムを生成するTTSシステムのスペクトログラム予測モデルを学習するための3つのアプローチを評価する.(1)言語間転移学習,(2)データ補強,(3)前2者の組み合わせ.言語間転移学習法では,英語(24時間)と日本語(10時間)の2つの高リソース言語データセットを使用した.また,3つの手法の学習には30分の目標言語データを使用し,手法2と3の学習に使用する拡張データの生成にも使用しました.その結果,言語間転移学習と拡張データの両方を用いて学習を行うことで,最も自然な目標音声の合成が可能になることがわかった.また,単一話者と複数話者の学習方法を比較し,それぞれ逐次学習と同時学習を行いました.多話者モデルは,単話者で低リソースのTTSモデルを構築するのに有効であることがわかった.さらに,2つのParallel WaveGAN (PWG) ニューラルボコーダを学習しました.1つは13時間の我々の増強データと30分のターゲット言語データを使用し,もう1つはオリジナルのターゲット言語データセットの12時間全体を使用しました.主観的なABプリファレンステストの結果,拡張データを用いて学習したニューラルボコーダは,ターゲット言語の全データセットを用いて学習したボコーダとほぼ同等の音声品質を達成した.以上の結果から,スペクトログラム予測ネットワークとPWGニューラルボコーダから構成される我々のTTSシステムは,わずか30分の目標言語訓練データで妥当な性能を達成できることがわかった.また,モデルの学習と補強データの生成に3時間のターゲット言語データを用いることで,12時間のターゲット言語データで学習したベースラインモデルとほぼ同等の性能を達成できることがわかった. |
|||||||||||||||||||||||||||||||||||||||||||||
キーワード | 推奨 | ||||||||||||||||||||||||||||||||||||||||||||||
発行所 | 推奨 | ||||||||||||||||||||||||||||||||||||||||||||||
誌名 | 必須 |
EURASIP Journal on Audio, Speech, and Music Processing([The European Association for Signal Processing])
(pISSN: 1687-4714, eISSN: 1687-4722)
|
|||||||||||||||||||||||||||||||||||||||||||||
巻 | 必須 | 2021 | |||||||||||||||||||||||||||||||||||||||||||||
号 | 必須 | 42 | |||||||||||||||||||||||||||||||||||||||||||||
頁 | 必須 | 1 20 | |||||||||||||||||||||||||||||||||||||||||||||
都市 | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
年月日 | 必須 | 2021年 12月 4日 | |||||||||||||||||||||||||||||||||||||||||||||
URL | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
DOI | 任意 | 10.1186/s13636-021-00225-4 (→Scopusで検索) | |||||||||||||||||||||||||||||||||||||||||||||
PMID | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
CRID | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
WOS | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
Scopus | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
評価値 | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
被引用数 | 任意 | ||||||||||||||||||||||||||||||||||||||||||||||
指導教員 | 推奨 | ||||||||||||||||||||||||||||||||||||||||||||||
備考 | 任意 |