このアイテムのアクセス数: 309
このアイテムのファイル:
ファイル | 記述 | サイズ | フォーマット | |
---|---|---|---|---|
Jinmonkon2021_104.pdf | 778.93 kB | Adobe PDF | 見る/開く |
タイトル: | Transformersを用いた古典中国語(漢文)文切りモデルの製作 |
その他のタイトル: | Sentence Segmentation of Classical Chinese Texts Using Transformers and BERT/RoBERTa Models |
著者: | 安岡, 孝一 ![]() ![]() |
著者名の別形: | Yasuoka, Koichi |
発行日: | Dec-2021 |
出版者: | 情報処理学会 |
誌名: | じんもんこん2021論文集 |
開始ページ: | 104 |
終了ページ: | 109 |
抄録: | 古典中国語(漢文)は,単語と単語の間に区切りがなく,文と文の間にも区切りがない.これが,白文と呼ばれる古典中国語の書写形態であり,傍目には,漢字が連続的に並んでいるだけである.それゆえ,白文に対する言語処理は,単語と単語の間を区切る「単語切り」(word tokenization)と,文と文の間を区切る「文切り」(sentencesegmentation) から始まる.本稿では,Transformersを用いた古典中国語の「文切り」手法と,それに伴う古典中国語「文切り」モデルの製作について述べる.これに加え,Transformers を用いた古典中国語の「単語切り」を,品詞付与と同時に行う手法についても述べる. Classical Chinese texts do not have any spaces or punctuations between words or between sentences. They consist of continuous strings of Chinese characters from the start to the end. The analysis of classical Chinese texts has to begin with finding out word-boundaries and sentence-boundaries, i.e. word tokenization and sentence segmentation. In this paper we discuss the sentence segmentation of classical Chinese texts using Transformers, which is designed for natural language processing with pre-trained language models such as BERT and RoBERTa. In the appendix we discuss the word tokenization (and Part-Of-Speech tagging) of classical Chinese texts using Transformers. |
記述: | [じんもんこん2021]人文科学とコンピュータシンポジウム, 日程: 2021年12月11日(土)-12日(日), 会場: オンライン開催 (拠点)関西大学千里山キャンパス, 主催: 情報処理学会(IPSJ) 人文科学とコンピュータ研究会 (SIG-CH) |
著作権等: | ©2021 Information Processing Society of Japan ここに掲載した著作物の利用に関する注意 本著作物の著作権は情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。 The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. |
URI: | http://hdl.handle.net/2433/266539 |
関連リンク: | http://jinmoncom.jp/sympo2021/index.html |
出現コレクション: | 学術雑誌掲載論文等 |

このリポジトリに保管されているアイテムはすべて著作権により保護されています。