徳島大学 教育・研究者情報データベース(EDB)

Education and Research Database (EDB), Tokushima University

徳島大学ウェブサイトへのリンク

著作: Sun Xiao/Huang Degen/[任 福継]/潜在半CRFモデルを活かした中国語テキストから新単語の検出/[電子情報通信学会英文論文誌(D)]

ヘルプを読む

「著作」(著作(著書,論文,レター,国際会議など))は,研究業績にかかる著作(著書,論文,レター,国際会議など)を登録するテーブルです. (この情報が属するテーブルの詳細な定義を見る)

  • 項目名の部分にマウスカーソルを置いて少し待つと,項目の簡単な説明がツールチップ表示されます.

この情報をEDB閲覧画面で開く

EID
212332
EOID
758795
Map
0
LastModified
2014年11月29日(土) 15:24:27
Operator
任 福継
Avail
TRUE
Censor
0
Owner
任 福継
Read
継承
Write
継承
Delete
継承
種別 必須 学術論文(審査論文)
言語 必須 英語
招待 推奨
審査 推奨 Peer Review
カテゴリ 推奨 研究
共著種別 推奨
学究種別 推奨 博士後期課程学生による研究報告
組織 推奨
  1. 徳島大学.大学院ソシオテクノサイエンス研究部.情報ソリューション部門.感性情報処理(2006年4月1日〜2016年3月31日)
著者 必須
  1. (英) Sun Xiao
    役割 任意
    貢献度 任意
    学籍番号 推奨
  2. (英) Huang Degen
    役割 任意
    貢献度 任意
    学籍番号 推奨
  3. 任 福継([徳島大学.大学院社会産業理工学研究部.理工学域.知能情報系.情報工学分野]/[徳島大学.理工学部.理工学科.情報光システムコース.情報工学講座]/->個人[中川 福継])
    役割 任意
    貢献度 任意
    学籍番号 推奨
題名 必須

(英) Detecting New Words from Chinese Text Using Latent Semi-CRF Models

(日) 潜在半CRFモデルを活かした中国語テキストから新単語の検出

副題 任意
要約 任意

(英) Chinese new words and their part-of-speech (POS) are particularly problematic in Chinese natural language processing. With the fast development of internet and information technology, it is impossible to get a complete system dictionary for Chinese natural language processing, as new words out of the basic system dictionary are always being created. A latent semi-CRF model, which combines the strengths of LDCRF (Latent-Dynamic Conditional Random Field) and semi-CRF, is proposed to detect the new words together with their POS synchronously regardless of the types of the new words from the Chinese text without being pre-segmented. Unlike the original semi-CRF, the LDCRF is applied to generate the candidate entities for training and testing the latent semi-CRF, which accelerates the training speed and decreases the computation cost. The complexity of the latent semi-CRF could be further adjusted by tuning the number of hidden variables in LDCRF and the number of the candidate entities from the Nbest outputs of the LDCRF. A new-words-generating framework is proposed for model training and testing, under which the definitions and distributions of the new words conform to the ones existing in real text. Specific features called ``Global Fragment Information'' for new word detection and POS tagging are adopted in the model training and testing. The experimental results show that the proposed method is capable of detecting even low frequency new words together with their POS tags. The proposed model is found to be performing competitively with the state-of-the-art models presented.

(日) インターネットと情報技術の速い開発に従って,新しい単語が自然言語処理において大きな問題となっている.本論文では,新しい単語の検出及び形態素解析のため,潜在的半条件付き確率場(Conditional Random Fields: CRF)モデルが提案された.その特徴としては,LDCRF(潜在的ダイナミックなCRFと半CRFの強さを組み合わせることによって,複雑な前処理が回避されることができた.よって,トレーニング速度を加速し,計算コストを減少させる.実験により,提案されたモデルの有効性が確認された.

キーワード 推奨
  1. (英) natural language processing
  2. (英) new word detection
  3. (英) new words POS tagging
  4. (英) conditional random fields
  5. (英) latent-dynamic CRF
  6. (英) semi-CRF
  7. (英) latent semi-CRF
発行所 推奨 電子情報通信学会
誌名 必須 電子情報通信学会英文論文誌(D)([電子情報通信学会])
(pISSN: 0916-8532, eISSN: 1745-1361)
ISSN 任意 0916-8532
ISSN: 0916-8532 (pISSN: 0916-8532, eISSN: 1745-1361)
Title: IEICE transactions on information and systems
Title(ISO): IEICE Trans Inf Syst
Supplier: 一般社団法人電子情報通信学会
Publisher: Oxford University Press
 (NLM Catalog  (Webcat Plus  (J-STAGE  (Scopus  (CrossRef (Scopus information is found. [need login])
必須 E93-D
必須 6
必須 1386 1393
都市 任意
年月日 必須 2010年 6月 1日
URL 任意 http://ci.nii.ac.jp/naid/10027987511/
DOI 任意 10.1587/transinf.E93.D.1386    (→Scopusで検索)
PMID 任意
NAID 任意 10027987511
WOS 任意 000279250600008
Scopus 任意
評価値 任意
被引用数 任意
指導教員 推奨
備考 任意