Chinese Computing Lab
 Site Map 
About CCL
Site News
Projects
PolyU TreeBank
Chunk Bank
Collocation Extraction
ASAB
CERG
Hong Kong Character Glyphs
Jyutping
Dash Line
Publications
Download Area
Contact Information
Useful Links


Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

PolyU Treebank

 

English

 

 

  1. 简介
  2. 总体概况和设计原则
  3. 树库标注规范
  4. 树库标注的实现
  5. 语料文件的标注格式
  6. 人工标注的工作方式,进度安排和质量保证
  7. 当前进展
  8. 应用PolyU浅层树库
  9. 发表文章
  10. 致谢
  11. 参考文献
  12. 附件1: 词性标注表
  13. 附件2: 短语句法信息标示集
  14. 附件3: 短语语法信息标示集
  15. 附件4: 标注实例
  16. PolyU Treebank 数据共享

 



5. 语料文件的标注格式

北京大学分词词性标注语料库是由 6 个大文件组成。每个文件对应一个月的人民日报的全部数据。在我们的标注过程中,我们将需要的数据,从大文件中拷贝出来,建立成为一个个小文件,每一个小文件对应人民日报中一篇文章的文本。并存储为 CC_SS_YYMMDD_BB_NNN.txt 文件。这个文件作为原始语料保存。

其中 :

CC :为语料文本分类代码,取汉语拼音首字母缩写。包括

   ZZ— 政治 JJ— 经济 KJ— 科技 JS— 军事 ZJ— 传记

   LS— 历史 YL— 娱乐 WX— 文学 XW— 新闻报道 QT— 其他

SS: 原始语料来源代码,取语料来源中文名称拼音首字母缩写, RM —人民日报

YYMMDD: 原始语料发布日期,分别以两位数字表示年、月、日等;

BB: 版面标号。标示原文件出现在当日报纸的第 BB 版

NNN: 文章序号,代表原文件为当日报纸第 BB 版的第 NNN 篇文章。

原始语料正文 是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。每一行的开头有篇章号 - 段落编号标志。如“ 19980101-01-001-001 ”表示这一自然段是 1998 年 1 月 1 日的第 01 版的第 001 篇文章的第 001 自然段。标号也作为一个词进行标注,词性固定为“ /m (数词)”。通常第 001 段为文章的题目。也有一些短讯性质的文章,全文不包含标题,只包含有一个 001 段落就是全文数据。我们将作为短讯处理。

原始语料文本语料正文部分按照规范已经切分成词,并且加上词性标注,标注的格式为“词语 / 词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用 2 个单字节空格隔开。每段最后的词或回车符,在标记之后也有 2 个单字节空格,保持格式一致。

在原始文本文件的基础上,我们进行了句法标注,句法标记的标注的格式为“ [ … ]SS-FF ”或“ [ … ]SS ”, SS 为句法标记, FF 为功能或结构标记 , 这个 FF 为可选择使用的。 SS 为必须标注的。标记后跟 2 个单字节空格。每段最后的标记或回车符也跟有 2 个单字节空格,保持格式一致。如果词性标记后紧跟句法标记符“ ] ”,则不需空格隔开。

此外,我们使用了 xml 文件来保存文件标注过程的多种信息,其文件名命名规则为 CC_SS_YYMMDD_BB_NNN.xml 文件。命名原则与原始语料完全相同。此外,标注过程中还填写了文件来源,标注者和修订者的信息 ( 用于标注结果比较和质量控制 ) ,文章标题,文章副标题,以及作者信息。

对应的用于格式检查的 DTD 文件,如下

DTD File: spfile.dtd

<!ELEMENT metadata (filename,source,annotators)>
<!ELEMENT filename (#PCDATA)>
<!ELEMENT source (#PCDATA)>
<!ELEMENT annotators (drafter*, reviser*)>
<!ELEMENT drafter (#PCDATA)>
<!ELEMENT reviser (#PCDATA)>
<!ATTLIST drafter name CDATA #REQUIRED
            date CDATA #REQUIRED>
<!ATTLIST reviser name CDATA #REQUIRED
            date CDATA #REQUIRED>
<!ELEMENT head (title, subtitle, authors)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT subtitle (#PCDATA)>
<!ELEMENT authors (author*)>
<!ELEMENT author (#PCDATA)>
<!ATTLIST author name CDATA #REQUIRED
            affiliation CDATA #IMPLIED
            email CDATA #IMPLIED>
<!ELEMENT body (#PCDATA)>
<!ELEMENT SPFILE (metadata,head,body)>

 

<<树库标注的实现         人工标注的工作方式,进度安排和质量保证>>

 

Last modified on Thu, 11 May 2006 11:54:24 +0800
THE HONG KONG POLYTECHNIC UNIVERSITY