このアイテムのアクセス数: 260

このアイテムのファイル:
ファイル 記述 サイズフォーマット 
jnlp.30.88.pdf1.32 MBAdobe PDF見る/開く
完全メタデータレコード
DCフィールド言語
dc.contributor.author三村, 正人ja
dc.contributor.author河原, 達也ja
dc.contributor.alternativeMimura, Masatoen
dc.contributor.alternativeKawahara, Tatsuyaen
dc.date.accessioned2023-08-21T10:53:37Z-
dc.date.available2023-08-21T10:53:37Z-
dc.date.issued2023-
dc.identifier.urihttp://hdl.handle.net/2433/284724-
dc.description.abstract従来の音声認識システムは,入力音声に現れるすべての単語を忠実に再現するように設計されているため,認識精度が高いときでも,人間にとって読みやすい文を出力するとは限らない.これに対して,本研究では,フィラーや言い誤りの削除,句読点や脱落した助詞の挿入,また口語的な表現の修正など,適宜必要な編集を行いながら,音声から直接可読性の高い書き言葉スタイルの文を出力する新しい音声認識のアプローチについて述べる.我々はこのアプローチを単一のニューラルネットワークを用いた音声から書き言葉への end-to-end 変換として定式化する.また,音声に忠実な書き起こしを疑似的に復元し,end-to-end モデルの学習を補助する手法と,句読点位置を手がかりとした新しい音声区分化手法も併せて提案する.700 時間の衆議院審議音声を用いた評価実験により,提案手法は音声認識とテキストベースの話し言葉スタイル変換を組み合わせたカスケード型のアプローチより高精度かつ高速に書き言葉を生成できることを示す.さらに,国会会議録作成時に編集者が行う修正作業を分類・整理し,これらについて提案システムの達成度と誤り傾向の分析を行う.ja
dc.description.abstractBecause conventional automatic speech recognition (ASR) systems are designed to faithfully reproduce utterances word-by-word, their outputs are not necessarily easy to read even when they have few speech recognition errors. To address this issue, we propose a novel ASR approach that outputs readable and clean text directly from speech by removing fillers and disfluent regeons, substituting colloquial expressions with formal ones, insertintg punctuation and recovering omitted particles, and performing other types of appropriate corrections. We formalize this approach as an end-to-end generation of written-style text from speech using a single neural network. We also propose a method to guide the training of this end-to-end model using automatically generated faithful transcripts, as well as a novel speech segmentation strategy based on online punctuation detection. An evaluation using 700 hours of Japanese Parliamentary speech data demonstrates that the proposed direct approach successfully generates clean transcripts suitable for human consumption more accurately at a faster decoding speed than the conventional cascade approach. We also provide an in-depth analysis on the types of edits performed by professional human editors to create the official written records of Japanese Parliamentary meetings, and evaluate the level of achievement of the proposed system in terms of each of the edit types.en
dc.language.isojpn-
dc.publisher言語処理学会ja
dc.publisher.alternativeAssociation for Natural Language Processingen
dc.rights© 2023 一般社団法人 言語処理学会en
dc.rightsLicensed under CC BY 4.0en
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/-
dc.subjectend-to-end 音声認識ja
dc.subject話し言葉スタイル変換ja
dc.subject整形ja
dc.subject国会会議録ja
dc.subjectEnd-to-End Speech Recognitionen
dc.subjectSpeaking Style Transformationen
dc.subjectParliamentary Reporten
dc.title国会会議録のための音声から書き言葉への end-to-end 変換ja
dc.title.alternativeEnd-to-End Generation of Written-style Transcript of Speech from Parliamentary Meetingsen
dc.typejournal article-
dc.type.niitypeJournal Article-
dc.identifier.jtitle自然言語処理ja
dc.identifier.volume30-
dc.identifier.issue1-
dc.identifier.spage88-
dc.identifier.epage124-
dc.relation.doi10.5715/jnlp.30.88-
dc.textversionpublisher-
dcterms.accessRightsopen access-
dc.identifier.pissn1340-7619-
dc.identifier.eissn2185-8314-
dc.identifier.jtitle-alternativeJournal of Natural Language Processingen
出現コレクション:学術雑誌掲載論文等

アイテムの簡略レコードを表示する

Export to RefWorks


出力フォーマット 


このアイテムは次のライセンスが設定されています: クリエイティブ・コモンズ・ライセンス Creative Commons