徳島大学 教育・研究者情報データベース(EDB)

Education and Research Database (EDB), Tokushima University

徳島大学ウェブサイトへのリンク

著作: 陳 家浩/[西村 良太]/[北岡 教英]/CTCとローカルアテンションを用いた日本語ストリーミング音声のEnd-to-End認識/[APSIPA Transactions on Signal and Information Processing]

ヘルプを読む

「著作」(著作(著書,論文,レター,国際会議など))は,研究業績にかかる著作(著書,論文,レター,国際会議など)を登録するテーブルです. (この情報が属するテーブルの詳細な定義を見る)

  • 項目名の部分にマウスカーソルを置いて少し待つと,項目の簡単な説明がツールチップ表示されます.

この情報をEDB閲覧画面で開く

EID
372885
EOID
1012425
Map
0
LastModified
2021年8月9日(月) 21:01:25
Operator
大家 隆弘
Avail
TRUE
Censor
0
Owner
西村 良太
Read
継承
Write
継承
Delete
継承
種別 必須 学術論文(審査論文)
言語 必須 英語
招待 推奨
審査 推奨 Peer Review
カテゴリ 推奨 研究
共著種別 推奨 国内共著(徳島大学内研究者と国内(学外)研究者との共同研究 (国外研究者を含まない))
学究種別 推奨
組織 推奨
  1. 徳島大学
著者 必須
  1. (英) Chen JiaHao / (日) 陳 家浩 / (読) ちん かこう
    役割 任意 第1著者(主著者)
    貢献度 任意 80
    学籍番号 推奨 ****
  2. 西村 良太([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.知能情報コース.情報工学講座]/[徳島大学.先端技術科学教育部.システム創生工学専攻.知能情報システム工学コース.基礎情報工学講座])
    役割 任意 責任著者
    貢献度 任意 10
    学籍番号 推奨
  3. 北岡 教英
    役割 任意 共著
    貢献度 任意 10
    学籍番号 推奨
題名 必須

(英) End-to-end recognition of streaming Japanese speech using CTC and local attention

(日) CTCとローカルアテンションを用いた日本語ストリーミング音声のEnd-to-End認識

副題 任意
要約 任意

(英) Many end-to-end, large vocabulary, continuous speech recognition systems are now able to achieve better speech recognition performance than conventional systems.Most of these approaches are based on bidirectional networks and sequence-to-sequence modeling however, so automatic speech recognition (ASR) systems using such techniques need to wait for an entire segment of voice input to be entered before they can begin processing the data, resulting in a lengthy time-lag, which can be a serious drawback in some applications. An obvious solution to this problem is to develop a speech recognition algorithm capable of processing streaming data. Therefore, in this paper we explore the possibility of a streaming, online, ASR system for Japanese using a model based on unidirectional LSTMs trained using connectionist temporal classification (CTC) criteria, with local attention. Such an approach has not been well investigated for use with Japanese, as most Japanese-language ASR systems employ bidirectional networks. The best result for our proposed system during experimental evaluation was a character error rate of 9.87%.

(日) 現在の音声認識アプローチのほとんどは双方向ネットワークとシーケンス間のモデリングに基づいているため,このような技術を用いた自動音声認識(ASR)システムは,データの処理を開始する前に音声入力のセグメント全体が入力されるのを待つ必要があり,結果として長いタイムラグが発生し,アプリケーションによっては深刻な欠点となることがある.この問題に対する明白な解決策は,ストリーミングデータを処理できる音声認識アルゴリズムを開発することである.そこで,本論文では,コネクショニスト時間分類(CTC)基準を用いて学習された一方向性LSTMに基づくモデルを用いて,日本語のためのストリーミング・オンラインASRシステムの可能性を示す.ほとんどの日本語ASRシステムでは双方向性のネットワークが採用されているため,このようなアプローチは日本語での利用についてはあまり研究されていない.本研究で提案したシステムの実験評価では,文字誤り率9.87%という最良の結果が得られた.

キーワード 推奨
  1. (英) CTC / (日) CTC / (読) しーてぃーしー
  2. (英) Local Attention / (日) ローカルアテンション / (読) ろーかるあてんしょん
  3. 音声認識(speech recognition)
  4. (英) streaming recognition / (日) ストリーミング認識 / (読) すとりーみんぐにんしき
発行所 推奨 Cambridge University Press
誌名 必須 APSIPA Transactions on Signal and Information Processing(Asia-Pacific Signal and Information Processing Association)
(eISSN: 2048-7703)
ISSN 任意 2048-7703
ISSN: 2048-7703 (eISSN: 2048-7703)
Title: APSIPA Transactions on Signal and Information Processing
Title(ISO): APSIPA Trans Signal Inf Process
Publisher: Cambridge University Press
 (NLM Catalog  (Scopus  (CrossRef (Scopus information is found. [need login])
必須 9
必須 e25
必須 1 7
都市 任意
年月日 必須 2020年 11月 23日
URL 任意 https://doi.org/10.1017/ATSIP.2020.23
DOI 任意 10.1017/ATSIP.2020.23    (→Scopusで検索)
PMID 任意
CRID 任意
WOS 任意
Scopus 任意
評価値 任意
被引用数 任意
指導教員 推奨
備考 任意