徳島大学 教育・研究者情報データベース(EDB)

Education and Research Database (EDB), Tokushima University

徳島大学ウェブサイトへのリンク

著作: Zolzaya Byambadorj/[西村 良太]/Ayush Altangerel/Kengo Ohta/[北岡 教英]/言語間伝達学習とデータ拡張を用いたローリソース言語のための音声合成システム/[EURASIP Journal on Audio, Speech, and Music Processing]

ヘルプを読む

「著作」(著作(著書,論文,レター,国際会議など))は,研究業績にかかる著作(著書,論文,レター,国際会議など)を登録するテーブルです. (この情報が属するテーブルの詳細な定義を見る)

  • 項目名の部分にマウスカーソルを置いて少し待つと,項目の簡単な説明がツールチップ表示されます.

この情報をEDB閲覧画面で開く

EID
384158
EOID
1051640
Map
0
LastModified
2022年8月8日(月) 18:44:16
Operator
大家 隆弘
Avail
TRUE
Censor
0
Owner
西村 良太
Read
継承
Write
継承
Delete
継承
種別 必須 学術論文(審査論文)
言語 必須 英語
招待 推奨
審査 推奨 Peer Review
カテゴリ 推奨 研究
共著種別 推奨 国際共著(徳島大学内研究者と国外研究機関所属研究者との共同研究)
学究種別 推奨
組織 推奨
著者 必須
  1. (英) Zolzaya Byambadorj / (日) Zolzaya Byambadorj / (読) ぞるざや びやんばどるじ
    役割 任意 第1著者(主著者)
    貢献度 任意 40
    学籍番号 推奨 ****
  2. 西村 良太([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.知能情報コース.情報工学講座]/[徳島大学.先端技術科学教育部.システム創生工学専攻.知能情報システム工学コース.基礎情報工学講座])
    役割 任意 共著
    貢献度 任意 10
    学籍番号 推奨
  3. (英) Ayush Altangerel
    役割 任意 共著
    貢献度 任意 10
    学籍番号 推奨
  4. (英) Kengo Ohta
    役割 任意 共著
    貢献度 任意 10
    学籍番号 推奨
  5. 北岡 教英
    役割 任意 共著
    貢献度 任意 30
    学籍番号 推奨
題名 必須

(英) Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation

(日) 言語間伝達学習とデータ拡張を用いたローリソース言語のための音声合成システム

副題 任意
要約 任意

(英) Deep learning techniques are currently being applied in automated text-to-speech (TTS) systems, resulting in significant improvements in performance. However, these methods require large amounts of text-speech paired data for model training, and collecting this data is costly. Therefore, in this paper, we propose a single-speaker TTS system containing both a spectrogram prediction network and a neural vocoder for the target language, using only 30 min of target language text-speech paired data for training. We evaluate three approaches for training the spectrogram prediction models of our TTS system, which produce mel-spectrograms from the input phoneme sequence: (1) cross-lingual transfer learning, (2) data augmentation, and (3) a combination of the previous two methods. In the cross-lingual transfer learning method, we used two high-resource language datasets, English (24 h) and Japanese (10 h). We also used 30 min of target language data for training in all three approaches, and for generating the augmented data used for training in methods 2 and 3. We found that using both cross-lingual transfer learning and augmented data during training resulted in the most natural synthesized target speech output. We also compare single-speaker and multi-speaker training methods, using sequential and simultaneous training, respectively. The multi-speaker models were found to be more effective for constructing a single-speaker, low-resource TTS model. In addition, we trained two Parallel WaveGAN (PWG) neural vocoders, one using 13 h of our augmented data with 30 min of target language data and one using the entire 12 h of the original target language dataset. Our subjective AB preference test indicated that the neural vocoder trained with augmented data achieved almost the same perceived speech quality as the vocoder trained with the entire target language dataset. Overall, we found that our proposed TTS system consisting of a spectrogram prediction network and a PWG neural vocoder was able to achieve reasonable performance using only 30 min of target language training data. We also found that by using 3 h of target language data, for training the model and for generating augmented data, our proposed TTS model was able to achieve performance very similar to that of the baseline model, which was trained with 12 h of target language data.

(日) 現在,自動音声合成(TTS)システムに深層学習技術が適用されており,その結果,性能が大幅に向上している.しかし,これらの手法では,モデル学習のために大量のテキストと音声のペアデータが必要であり,このデータの収集にはコストがかかる.そこで,本稿では,スペクトログラム予測ネットワークとニューラルボコーダの両方を含む単一話者用TTSシステムを提案する.このシステムでは,ターゲット言語のテキストと音声のペアデータを30分程度学習するだけでよい.本研究では,入力された音素列からメル・スペクトログラムを生成するTTSシステムのスペクトログラム予測モデルを学習するための3つのアプローチを評価する.(1)言語間転移学習,(2)データ補強,(3)前2者の組み合わせ.言語間転移学習法では,英語(24時間)と日本語(10時間)の2つの高リソース言語データセットを使用した.また,3つの手法の学習には30分の目標言語データを使用し,手法2と3の学習に使用する拡張データの生成にも使用しました.その結果,言語間転移学習と拡張データの両方を用いて学習を行うことで,最も自然な目標音声の合成が可能になることがわかった.また,単一話者と複数話者の学習方法を比較し,それぞれ逐次学習と同時学習を行いました.多話者モデルは,単話者で低リソースのTTSモデルを構築するのに有効であることがわかった.さらに,2つのParallel WaveGAN (PWG) ニューラルボコーダを学習しました.1つは13時間の我々の増強データと30分のターゲット言語データを使用し,もう1つはオリジナルのターゲット言語データセットの12時間全体を使用しました.主観的なABプリファレンステストの結果,拡張データを用いて学習したニューラルボコーダは,ターゲット言語の全データセットを用いて学習したボコーダとほぼ同等の音声品質を達成した.以上の結果から,スペクトログラム予測ネットワークとPWGニューラルボコーダから構成される我々のTTSシステムは,わずか30分の目標言語訓練データで妥当な性能を達成できることがわかった.また,モデルの学習と補強データの生成に3時間のターゲット言語データを用いることで,12時間のターゲット言語データで学習したベースラインモデルとほぼ同等の性能を達成できることがわかった.

キーワード 推奨
発行所 推奨
誌名 必須 EURASIP Journal on Audio, Speech, and Music Processing([The European Association for Signal Processing])
(pISSN: 1687-4714, eISSN: 1687-4722)
ISSN 任意 1687-4722
ISSN: 1687-4714 (pISSN: 1687-4714, eISSN: 1687-4722)
Title: EURASIP journal on audio, speech, and music processing
Title(ISO): EURASIP J Audio Speech Music Process
Publisher: Springer
 (NLM Catalog  (Scopus  (CrossRef (Scopus information is found. [need login])
必須 2021
必須 42
必須 1 20
都市 任意
年月日 必須 2021年 12月 4日
URL 任意
DOI 任意 10.1186/s13636-021-00225-4    (→Scopusで検索)
PMID 任意
CRID 任意
WOS 任意
Scopus 任意
評価値 任意
被引用数 任意
指導教員 推奨
備考 任意