English
5. 语料文件的标注格式
北京大学分词词性标注语料库是由 6 个大文件组成。每个文件对应一个月的人民日报的全部数据。在我们的标注过程中,我们将需要的数据,从大文件中拷贝出来,建立成为一个个小文件,每一个小文件对应人民日报中一篇文章的文本。并存储为 CC_SS_YYMMDD_BB_NNN.txt 文件。这个文件作为原始语料保存。
其中 :
CC :为语料文本分类代码,取汉语拼音首字母缩写。包括
ZZ— 政治 JJ— 经济 KJ— 科技 JS— 军事 ZJ— 传记
LS— 历史 YL— 娱乐 WX— 文学 XW— 新闻报道 QT— 其他
SS: 原始语料来源代码,取语料来源中文名称拼音首字母缩写, RM —人民日报
YYMMDD: 原始语料发布日期,分别以两位数字表示年、月、日等;
BB: 版面标号。标示原文件出现在当日报纸的第 BB 版
NNN: 文章序号,代表原文件为当日报纸第 BB 版的第 NNN 篇文章。
原始语料正文 是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。每一行的开头有篇章号 - 段落编号标志。如“ 19980101-01-001-001 ”表示这一自然段是 1998 年 1 月 1 日的第 01 版的第 001 篇文章的第 001 自然段。标号也作为一个词进行标注,词性固定为“ /m (数词)”。通常第 001 段为文章的题目。也有一些短讯性质的文章,全文不包含标题,只包含有一个 001 段落就是全文数据。我们将作为短讯处理。
原始语料文本语料正文部分按照规范已经切分成词,并且加上词性标注,标注的格式为“词语 / 词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用 2 个单字节空格隔开。每段最后的词或回车符,在标记之后也有 2 个单字节空格,保持格式一致。
在原始文本文件的基础上,我们进行了句法标注,句法标记的标注的格式为“ [ … ]SS-FF ”或“ [ … ]SS ”, SS 为句法标记, FF 为功能或结构标记 , 这个 FF 为可选择使用的。 SS 为必须标注的。标记后跟 2 个单字节空格。每段最后的标记或回车符也跟有 2 个单字节空格,保持格式一致。如果词性标记后紧跟句法标记符“ ] ”,则不需空格隔开。
此外,我们使用了 xml 文件来保存文件标注过程的多种信息,其文件名命名规则为 CC_SS_YYMMDD_BB_NNN.xml 文件。命名原则与原始语料完全相同。此外,标注过程中还填写了文件来源,标注者和修订者的信息 ( 用于标注结果比较和质量控制 ) ,文章标题,文章副标题,以及作者信息。
对应的用于格式检查的 DTD 文件,如下
DTD File: spfile.dtd
<!ELEMENT metadata (filename,source,annotators)>
<!ELEMENT filename (#PCDATA)>
<!ELEMENT source (#PCDATA)>
<!ELEMENT annotators (drafter*, reviser*)>
<!ELEMENT drafter (#PCDATA)>
<!ELEMENT reviser (#PCDATA)>
<!ATTLIST drafter name CDATA #REQUIRED
date CDATA #REQUIRED>
<!ATTLIST reviser name CDATA #REQUIRED
date CDATA #REQUIRED>
<!ELEMENT head (title, subtitle, authors)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT subtitle (#PCDATA)>
<!ELEMENT authors (author*)>
<!ELEMENT author (#PCDATA)>
<!ATTLIST author name CDATA #REQUIRED
affiliation CDATA #IMPLIED
email CDATA #IMPLIED>
<!ELEMENT body (#PCDATA)>
<!ELEMENT SPFILE (metadata,head,body)>
|