著作: 陳 家浩/[西村 良太]/[北岡 教英]/CTCとローカルアテンションを用いた日本語ストリーミング音声のEnd-to-End認識/[APSIPA Transactions on Signal and Information Processing]
ヘルプを読む
「著作」(著作(著書,論文,レター,国際会議など))は,研究業績にかかる著作(著書,論文,レター,国際会議など)を登録するテーブルです. (この情報が属するテーブルの詳細な定義を見る)
- 項目名の部分にマウスカーソルを置いて少し待つと,項目の簡単な説明がツールチップ表示されます.
種別 | 必須 | 学術論文(審査論文) | |||
---|---|---|---|---|---|
言語 | 必須 | 英語 | |||
招待 | 推奨 | ||||
審査 | 推奨 | Peer Review | |||
カテゴリ | 推奨 | 研究 | |||
共著種別 | 推奨 | 国内共著(徳島大学内研究者と国内(学外)研究者との共同研究 (国外研究者を含まない)) | |||
学究種別 | 推奨 | ||||
組織 | 推奨 | ||||
著者 | 必須 | ||||
題名 | 必須 |
(英) End-to-end recognition of streaming Japanese speech using CTC and local attention (日) CTCとローカルアテンションを用いた日本語ストリーミング音声のEnd-to-End認識 |
|||
副題 | 任意 | ||||
要約 | 任意 |
(英) Many end-to-end, large vocabulary, continuous speech recognition systems are now able to achieve better speech recognition performance than conventional systems.Most of these approaches are based on bidirectional networks and sequence-to-sequence modeling however, so automatic speech recognition (ASR) systems using such techniques need to wait for an entire segment of voice input to be entered before they can begin processing the data, resulting in a lengthy time-lag, which can be a serious drawback in some applications. An obvious solution to this problem is to develop a speech recognition algorithm capable of processing streaming data. Therefore, in this paper we explore the possibility of a streaming, online, ASR system for Japanese using a model based on unidirectional LSTMs trained using connectionist temporal classification (CTC) criteria, with local attention. Such an approach has not been well investigated for use with Japanese, as most Japanese-language ASR systems employ bidirectional networks. The best result for our proposed system during experimental evaluation was a character error rate of 9.87%. (日) 現在の音声認識アプローチのほとんどは双方向ネットワークとシーケンス間のモデリングに基づいているため,このような技術を用いた自動音声認識(ASR)システムは,データの処理を開始する前に音声入力のセグメント全体が入力されるのを待つ必要があり,結果として長いタイムラグが発生し,アプリケーションによっては深刻な欠点となることがある.この問題に対する明白な解決策は,ストリーミングデータを処理できる音声認識アルゴリズムを開発することである.そこで,本論文では,コネクショニスト時間分類(CTC)基準を用いて学習された一方向性LSTMに基づくモデルを用いて,日本語のためのストリーミング・オンラインASRシステムの可能性を示す.ほとんどの日本語ASRシステムでは双方向性のネットワークが採用されているため,このようなアプローチは日本語での利用についてはあまり研究されていない.本研究で提案したシステムの実験評価では,文字誤り率9.87%という最良の結果が得られた. |
|||
キーワード | 推奨 |
|
|||
発行所 | 推奨 | Cambridge University Press | |||
誌名 | 必須 |
APSIPA Transactions on Signal and Information Processing(Asia-Pacific Signal and Information Processing Association)
(eISSN: 2048-7703)
|
|||
巻 | 必須 | 9 | |||
号 | 必須 | e25 | |||
頁 | 必須 | 1 7 | |||
都市 | 任意 | ||||
年月日 | 必須 | 2020年 11月 23日 | |||
URL | 任意 | https://doi.org/10.1017/ATSIP.2020.23 | |||
DOI | 任意 | 10.1017/ATSIP.2020.23 (→Scopusで検索) | |||
PMID | 任意 | ||||
CRID | 任意 | ||||
WOS | 任意 | ||||
Scopus | 任意 | ||||
評価値 | 任意 | ||||
被引用数 | 任意 | ||||
指導教員 | 推奨 | ||||
備考 | 任意 |