Access count of this item: 312

Files in This Item:
File Description SizeFormat 
Jinmonkon2021_104.pdf778.93 kBAdobe PDFView/Open
Title: Transformersを用いた古典中国語(漢文)文切りモデルの製作
Other Titles: Sentence Segmentation of Classical Chinese Texts Using Transformers and BERT/RoBERTa Models
Authors: 安岡, 孝一  kyouindb  KAKEN_id
Author's alias: Yasuoka, Koichi
Issue Date: Dec-2021
Publisher: 情報処理学会
Journal title: じんもんこん2021論文集
Start page: 104
End page: 109
Abstract: 古典中国語(漢文)は,単語と単語の間に区切りがなく,文と文の間にも区切りがない.これが,白文と呼ばれる古典中国語の書写形態であり,傍目には,漢字が連続的に並んでいるだけである.それゆえ,白文に対する言語処理は,単語と単語の間を区切る「単語切り」(word tokenization)と,文と文の間を区切る「文切り」(sentencesegmentation) から始まる.本稿では,Transformersを用いた古典中国語の「文切り」手法と,それに伴う古典中国語「文切り」モデルの製作について述べる.これに加え,Transformers を用いた古典中国語の「単語切り」を,品詞付与と同時に行う手法についても述べる.
Classical Chinese texts do not have any spaces or punctuations between words or between sentences. They consist of continuous strings of Chinese characters from the start to the end. The analysis of classical Chinese texts has to begin with finding out word-boundaries and sentence-boundaries, i.e. word tokenization and sentence segmentation. In this paper we discuss the sentence segmentation of classical Chinese texts using Transformers, which is designed for natural language processing with pre-trained language models such as BERT and RoBERTa. In the appendix we discuss the word tokenization (and Part-Of-Speech tagging) of classical Chinese texts using Transformers.
Description: [じんもんこん2021]人文科学とコンピュータシンポジウム, 日程: 2021年12月11日(土)-12日(日), 会場: オンライン開催 (拠点)関西大学千里山キャンパス, 主催: 情報処理学会(IPSJ) 人文科学とコンピュータ研究会 (SIG-CH)
Rights: ©2021 Information Processing Society of Japan
ここに掲載した著作物の利用に関する注意 本著作物の著作権は情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。
The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof.
URI: http://hdl.handle.net/2433/266539
Related Link: http://jinmoncom.jp/sympo2021/index.html
Appears in Collections:Journal Articles

Show full item record

Export to RefWorks


Export Format: 


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.