著作: Kengo Ohta/[西村 良太]/[北岡 教英]/LSTMとマルチタスク学習に基づくチャット型音声対話システムの応答タイプ選択/[Speech Communication]
ヘルプを読む
「著作」(著作(著書,論文,レター,国際会議など))は,研究業績にかかる著作(著書,論文,レター,国際会議など)を登録するテーブルです. (この情報が属するテーブルの詳細な定義を見る)
- 項目名の部分にマウスカーソルを置いて少し待つと,項目の簡単な説明がツールチップ表示されます.
種別 | 必須 | 学術論文(審査論文) | |||
---|---|---|---|---|---|
言語 | 必須 | 英語 | |||
招待 | 推奨 | ||||
審査 | 推奨 | Peer Review | |||
カテゴリ | 推奨 | 研究 | |||
共著種別 | 推奨 | 国内共著(徳島大学内研究者と国内(学外)研究者との共同研究 (国外研究者を含まない)) | |||
学究種別 | 推奨 | ||||
組織 | 推奨 | ||||
著者 | 必須 | ||||
題名 | 必須 |
(英) Response Type Selection for Chat-like Spoken Dialog Systems Based on LSTM and Multi-task Learning (accepted) (日) LSTMとマルチタスク学習に基づくチャット型音声対話システムの応答タイプ選択 |
|||
副題 | 任意 | ||||
要約 | 任意 |
(英) We propose a method of automatically selecting appropriate responses in conversational spoken dialog systems by explicitly determining the correct response type that is needed first, based on a comparison of the users input utterance with many other utterances. Response utterances are then generated based on this response type designation (back channel, changing the topic, expanding the topic, etc.). This allows the generation of more appropriate responses than conventional end-to-end approaches, which only use the users input to directly generate response utterances. As a response type selector, we propose an LSTM-based encoder-decoder framework utilizing acoustic and linguistic features extracted from input utterances. In order to extract these features more accurately, we utilize not only input utterances but also response utterances in the training corpus. To do so, multi-task learning using multiple decoders is also investigated. To evaluate our proposed method, we conducted experiments using a corpus of dialogs between elderly people and an interviewer. Our proposed method outperformed conventional methods using either a point-wise classifier based on Support Vector Machines, or a single-task learning LSTM. The best performance was achieved when our two response type selectors (one trained using acoustic features, and the other trained using linguistic features) were combined, and multi-task learning was also performed. (日) 会話型音声対話システムにおいて,ユーザの入力発話と他の多くの発話との比較に基づいて,最初に必要とされる正しい応答タイプを明示的に決定することで,適切な応答を自動的に選択する手法を提案する.そして,この応答タイプの指定に基づいて,応答発話が生成される(バックチャネル,話題の変更,話題の拡大,など).これにより,従来のエンド・ツー・エンドのアプローチでは,ユーザの入力のみを用いて直接応答発話を生成していたのに対し,より適切な応答を生成することができる.応答タイプセレクタとして,我々は,入力発話から抽出された音響的特徴と言語的特徴を利用したLSTMベースのエンコーダ・デコーダフレームワークを提案する.これらの特徴をより正確に抽出するために,入力発話だけでなく,学習コーパスに含まれる応答発話も利用する.また,複数のデコーダを用いたマルチタスク学習についても検討する.提案手法を評価するために,高齢者とインタビュアーの対話コーパスを用いた実験を行った.その結果,提案手法は,サポートベクターマシンを用いたポイントワイズ分類器や,シングルタスク学習のLSTMを用いた従来の手法よりも高い性能を示した.また,音響特徴量で学習した応答タイプセレクタと言語特徴量で学習した応答タイプセレクタを組み合わせ,さらにマルチタスク学習を行うことで,最高の性能を得ることができた. |
|||
キーワード | 推奨 |
|
|||
発行所 | 推奨 | Elsevier Science | |||
誌名 | 必須 |
Speech Communication([The European Association for Signal Processing]/[International Speech Communication Association])
(pISSN: 0167-6393)
|
|||
巻 | 必須 | 133 | |||
号 | 必須 | 2021 | |||
頁 | 必須 | 23 30 | |||
都市 | 任意 | ||||
年月日 | 必須 | 2021年 10月 初日 | |||
URL | 任意 | https://doi.org/10.1016/j.specom.2021.07.003 | |||
DOI | 任意 | 10.1016/j.specom.2021.07.003 (→Scopusで検索) | |||
PMID | 任意 | ||||
CRID | 任意 | ||||
WOS | 任意 | ||||
Scopus | 任意 | ||||
評価値 | 任意 | ||||
被引用数 | 任意 | ||||
指導教員 | 推奨 | ||||
備考 | 任意 |