Chinese Computing Lab

Site Map

Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

English

5. 语料文件的标注格式

北京大学分词词性标注语料库是由 6 个大文件组成。每个文件对应一个月的人民日报的全部数据。在我们的标注过程中，我们将需要的数据，从大文件中拷贝出来，建立成为一个个小文件，每一个小文件对应人民日报中一篇文章的文本。并存储为 CC_SS_YYMMDD_BB_NNN.txt 文件。这个文件作为原始语料保存。

其中 :

CC ：为语料文本分类代码，取汉语拼音首字母缩写。包括

ZZ— 政治 JJ— 经济 KJ— 科技 JS— 军事 ZJ— 传记

LS— 历史 YL— 娱乐 WX— 文学 XW— 新闻报道 QT— 其他

SS: 原始语料来源代码，取语料来源中文名称拼音首字母缩写， RM —人民日报

YYMMDD: 原始语料发布日期，分别以两位数字表示年、月、日等；

BB: 版面标号。标示原文件出现在当日报纸的第 BB 版

NNN: 文章序号，代表原文件为当日报纸第 BB 版的第 NNN 篇文章。

原始语料正文是纯文本文件，文件中每一行代表一自然段或者一个标题，一篇文章有若干个自然段，因此在语料中一篇文章是由多行组成的。每一行的开头有篇章号 - 段落编号标志。如“ 19980101-01-001-001 ”表示这一自然段是 1998 年 1 月 1 日的第 01 版的第 001 篇文章的第 001 自然段。标号也作为一个词进行标注，词性固定为“ /m （数词）”。通常第 001 段为文章的题目。也有一些短讯性质的文章，全文不包含标题，只包含有一个 001 段落就是全文数据。我们将作为短讯处理。

原始语料文本语料正文部分按照规范已经切分成词，并且加上词性标注，标注的格式为“词语 / 词性”，即词语后面加单斜线，再紧跟词性标记。词与词之间用 2 个单字节空格隔开。每段最后的词或回车符，在标记之后也有 2 个单字节空格，保持格式一致。

在原始文本文件的基础上，我们进行了句法标注，句法标记的标注的格式为“ [ … ]SS-FF ”或“ [ … ]SS ”， SS 为句法标记， FF 为功能或结构标记 , 这个 FF 为可选择使用的。 SS 为必须标注的。标记后跟 2 个单字节空格。每段最后的标记或回车符也跟有 2 个单字节空格，保持格式一致。如果词性标记后紧跟句法标记符“ ] ”，则不需空格隔开。

此外，我们使用了 xml 文件来保存文件标注过程的多种信息，其文件名命名规则为 CC_SS_YYMMDD_BB_NNN.xml 文件。命名原则与原始语料完全相同。此外，标注过程中还填写了文件来源，标注者和修订者的信息 ( 用于标注结果比较和质量控制 ) ，文章标题，文章副标题，以及作者信息。

对应的用于格式检查的 DTD 文件，如下

DTD File: spfile.dtd

<!ELEMENT metadata (filename,source,annotators)>
<!ELEMENT filename (#PCDATA)>
<!ELEMENT source (#PCDATA)>
<!ELEMENT annotators (drafter*, reviser*)>
<!ELEMENT drafter (#PCDATA)>
<!ELEMENT reviser (#PCDATA)>
<!ATTLIST drafter name CDATA #REQUIRED
            date CDATA #REQUIRED>
<!ATTLIST reviser name CDATA #REQUIRED
            date CDATA #REQUIRED>
<!ELEMENT head (title, subtitle, authors)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT subtitle (#PCDATA)>
<!ELEMENT authors (author*)>
<!ELEMENT author (#PCDATA)>
<!ATTLIST author name CDATA #REQUIRED
            affiliation CDATA #IMPLIED
            email CDATA #IMPLIED>
<!ELEMENT body (#PCDATA)>
<!ELEMENT SPFILE (metadata,head,body)>

＜＜树库标注的实现

人工标注的工作方式，进度安排和质量保证＞＞

Last modified on Thu, 11 May 2006 11:54:24 +0800