『徳島大学 教育・研究者情報データベース (EDB)』---[学外] /
ID: Pass:

登録内容 (EID=376744)

EID=376744EID:376744, Map:0, LastModified:2022年8月20日(土) 21:14:08, Operator:[大家 隆弘], Avail:TRUE, Censor:0, Owner:[西村 良太], Read:継承, Write:継承, Delete:継承.
種別 (必須): 学術論文 (審査論文) [継承]
言語 (必須): 英語 [継承]
招待 (推奨):
審査 (推奨): Peer Review [継承]
カテゴリ (推奨): 研究 [継承]
共著種別 (推奨): 国際共著 (徳島大学内研究者と国外研究機関所属研究者との共同研究) [継承]
学究種別 (推奨):
組織 (推奨): 1.徳島大学 [継承]
著者 (必須): 1. (英) BYAMBADORJ ZOLZAYA (日) ZOLZAYA BYAMBADORJ (読) ぞるざや びやんばどるじ
役割 (任意): 第1著者(主著者) [継承]
貢献度 (任意): 40 [継承]
学籍番号 (推奨): **** [ユーザ]
[継承]
2.西村 良太 ([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.知能情報コース.情報工学講座]/[徳島大学.先端技術科学教育部.システム創生工学専攻.知能情報システム工学コース.基礎情報工学講座])
役割 (任意): 共著 [継承]
貢献度 (任意): 20 [継承]
学籍番号 (推奨):
[継承]
3. (英) Altangerel Ayush (日) (読)
役割 (任意): 共著 [継承]
貢献度 (任意): 10 [継承]
学籍番号 (推奨):
[継承]
4.北岡 教英
役割 (任意): 共著 [継承]
貢献度 (任意): 30 [継承]
学籍番号 (推奨):
[継承]
題名 (必須): (英) Normalization of Transliterated Mongolian Words Using Seq2Seq Model with Limited Data (accepted)  (日) 小規模データでのSeq2Seqモデルを用いたモンゴル語の翻訳単語の正規化   [継承]
副題 (任意):
要約 (任意): (英) The huge increase in social media use in recent years has resulted in new forms of social interaction, changing our daily lives. Due to increasing contact between people from different cultures as a result of globalization, there has also been an increase in the use of the Latin alphabet, and as a result a large amount of transliterated text is being used on social media. In this study, wepropose a variety of character level sequence-to-sequence (seq2seq) models for normalizing noisy, transliterated text written in Latin script into Mongolian Cyrillic script, for scenarios in which there is a limited amount of training data available. We applied performance enhancement methods, which included various beam search strategies, N-gram-based context adoption, edit distance-based correction and dictionary-based checking, in novel ways to two basic seq2seq models. We experimentally evaluated these two basic models as well as fourteen enhanced seq2seq models, and compared their noisy text normalization performance with that of a transliteration model and a conventional statistical machine translation (SMT) model. The proposed seq2seq models improved the robustness of the basic seq2seq models for normalizing out-of-vocabulary (OOV) words, and most of our models achieved higher normalization performance than the conventional method. When using test data during our text normalization experiment,our proposed method which included checking each hypothesis during the inference period achieved the lowest word error rate (WER = 13.41%), which was 4.51% fewer errors than when using the conventional SMT method.  (日) 近年,ソーシャルメディアの利用が大幅に増加したことで,新たな社会的交流の形が生まれ,私たちの日常生活に変化をもたらしています.グローバル化に伴い,異文化間の接触が増えたことで,ラテン文字の使用が増え,その結果,ソーシャルメディア上で大量の音訳されたテキストが使用されるようになっています.本研究では,利用可能な学習データが限られているシナリオにおいて,ラテン文字で書かれたノイズの多い音訳テキストをモンゴル語のキリル文字に正規化するために,様々な文字レベルのsequence-to-sequence(seq2seq)モデルを提案しました.本研究では,2つの基本的なseq2seqモデルに対して,様々なビームサーチ戦略,N-gramベースの文脈採用,編集距離ベースの補正,辞書ベースのチェックなどの性能向上手法を新しい方法で適用した. これら2つの基本モデルと14の拡張seq2seqモデルを実験的に評価し,ノイズの多いテキストの正規化性能を音訳モデルや従来の統計的機械翻訳(SMT)モデルと比較した.提案したseq2seqモデルは,基本的なseq2seqモデルのOOV(out-of-vocabulary)単語の正規化に対する頑健性を向上させ,ほとんどのモデルが従来の手法よりも高い正規化性能を達成した.また,テストデータを用いた正規化実験では,推論期間中に各仮説をチェックする提案手法が最も低い単語誤り率(WER = 13.41%)を達成し,従来のSMT手法を用いた場合よりも4.51%少ない誤り率となった.   [継承]
キーワード (推奨): 1. (英) Text normalization (日) (読) [継承]
2. (英) noisy text (日) (読) [継承]
3. (英) transliterated text (日) (読) [継承]
4.ニューラルネットワーク (neural network) [継承]
5. (英) language model (日) 言語モデル (読) げんごもでる [継承]
発行所 (推奨):
誌名 (必須): ACM Transactions on Asian and Low-Resource Language Information Processing ([Association for Computing Machinery])
(pISSN: 2375-4699, eISSN: 2375-4702)

ISSN (任意): 2375-4699
ISSN: 2375-4699 (pISSN: 2375-4699, eISSN: 2375-4702)
Title: ACM Transactions on Asian and Low-Resource Language Information Processing
Publisher: Association for Computing Machinery
 (Scopus  (CrossRef (Scopus information is found. [need login])
[継承]
[継承]
(必須): 20 [継承]
(必須): 6 [継承]
(必須): 1 19 [継承]
都市 (任意):
年月日 (必須): 西暦 2021年 7月 初日 (令和 3年 7月 初日) [継承]
URL (任意):
DOI (任意): 10.1145/3464361    (→Scopusで検索) [継承]
PMID (任意):
CRID (任意):
WOS (任意):
Scopus (任意):
評価値 (任意):
被引用数 (任意):
指導教員 (推奨):
備考 (任意):

標準的な表示

和文冊子 ● ZOLZAYA BYAMBADORJ, Ryota Nishimura, Ayush Altangerel and Norihide Kitaoka : Normalization of Transliterated Mongolian Words Using Seq2Seq Model with Limited Data (accepted), ACM Transactions on Asian and Low-Resource Language Information Processing, Vol.20, No.6, 1-19, 2021.
欧文冊子 ● ZOLZAYA BYAMBADORJ, Ryota Nishimura, Ayush Altangerel and Norihide Kitaoka : Normalization of Transliterated Mongolian Words Using Seq2Seq Model with Limited Data (accepted), ACM Transactions on Asian and Low-Resource Language Information Processing, Vol.20, No.6, 1-19, 2021.

関連情報

Number of session users = 0, LA = 0.32, Max(EID) = 392241, Max(EOID) = 1059776.