Chinese Computing Lab
 Site Map 
About CCL
Site News
Projects
PolyU TreeBank
Chunk Bank
Collocation Extraction
ASAB
CERG
Hong Kong Character Glyphs
Jyutping
Dash Line
Publications
Download Area
Contact Information
Useful Links


Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

PolyU Treebank

 

English

 

 

  1. 简介
  2. 总体概况和设计原则
  3. 树库标注规范
  4. 树库标注的实现
  5. 语料文件的标注格式
  6. 人工标注的工作方式,进度安排和质量保证
  7. 当前进展
  8. 应用PolyU浅层树库
  9. 发表文章
  10. 致谢
  11. 参考文献
  12. 附件1: 词性标注表
  13. 附件2: 短语句法信息标示集
  14. 附件3: 短语语法信息标示集
  15. 附件4: 标注实例
  16. PolyU Treebank 数据共享

 



6. 人工标注的工作方式,进度安排和质量保证

整个标注工作,由香港理工大学 4 名计算语言学研究人员,北京语言文化大学 2 名语言学研究人员, 4 名语言学研究生组成。

在整个标注过程中,我们始终把语料库标注规范的完备性,内部无冲突,人工标注的质量,不同标注人员手工标注的一致性放在头等重要的位置上。

首先,由香港理工大学计算语言学研究人员和北京语言文化大学语言学研究人员合作,根据能够参考到的语言学参考资料。确定整个标注语料库的选材,规模,标注信息内容。总结短语句法功能类型和短语内部结构语义标注类型,建立标记。并归纳出基本的短语构成规则,完成最初的语料库标注规范。并遵循这份规范对应于 1 万词次的标注语料进行试标注,在标注过程中出现的问题,歧义将进行共同讨论以形成改进版的语料库标注规范。这一阶段的工作共耗时 3 个月。

在第二阶段,作为手工标注人员的语言学研究生参与进来。从语料库中选出 2 万词次的语料,遵循语料库标注规范,由全体参加人员分别标注,所有人的标注结果将进行比较。此阶段的工作主要有几个目的,一方面训练标注人员了解掌握标注规范,另一方面是在此过程中,通过对歧义标注的讨论进一步完善标注规范。最后,在这个过程中,培养参加人员对手工标注的一致性。第二阶段的工作共耗时 2 个月。

第三阶段分配给每个手工标注人员各 4 万词次的语料,其中存在着一定数量的重复文本,保证任意 3 个标注人员都存在着 5000 词的重复数据。在完成手工标注后,计算语言学研究人员负责开发系统,自动进行格式检验,短语标志闭合性检验,以及针对重复数据,标注结果的比较。并对标注数据中,表示为 OT 的情况进行分析,从中总结出规律添加在语料库标注规范中。对于验证中发现的错误,要求标注人员改正。并对标注工作的质量进行评估。第三阶段的工作共耗时 2 个月。在此过程中,形成的语料库标注规范。将用于第四阶段的标注工作。

第四阶段开始,计算语言学研究人员的任务是向手工标注人员分发数据。每批数据规模为每个标注人员 5 万词,并保证任意 3 个标注人员都存在着 5000 词的重复数据。在每一批数据完成手工标注后,计算语言学研究人员负责对数据的整理,维护和错误检查。并对重复标注数据,进行比较。如果手工标注的重复数据出现超过 0.5% 的不同,将要求标注人员返回检查这些数据,并找出错误。对于错误较多的标注人员将要求重新检查所有标注结果并重新提交标注后的数据。直到手工标注的正确率超过 99.5% 为止。在这个过程中,遇到的超出语料库标注规范的问题,将只使用 OT 标志标出,在此阶段中,不进行语料库标注规范的更新。重复这样的过程,直到所有的语料数据都完成标注。此阶段共耗时 4 个月。

第五阶段,在全部语料完成后,全体人员将参加进来集中对标识为 OT 的情况进行讨论,从中总结出规律修改语料库标注规范,形成最终的规范。标注人员将根据讨论的结果,对已经完成的数据遵循最终的规范修改可以替换的 OT 标识,和其他发现的问题。在此阶段内,计算语言学研究人员将开发程序进行一系列的自动化检验和比较。并将发现的问题与语言学家讨论,检测出来的问题,将有标注人员负责改正。此阶段耗时 2 个月。

由于整个标注工作规模很大,完全依赖人工检查和对同一数据的多人标注是不现实的。为了保证标注的质量,我们开发了一系列的工具来对手工标注后的数据进行检查和维护。

首先,我们设计了一个程序进行文件对齐检查。也就是检查是否相同文件名,但是不同扩展名的 TXT 文件和 XML 文件。保证原始语料文件和标注文件齐备。并打开两个文件,分别找出其包含的文章日期,时间,版面,文章编号,以及段落标志等,进行比较。并确保利用程序去除在句法标注过程中添加的标识后,保两个文件包含同样的原始文本信息。也就是保证了文本的对齐。

其次,利用 XML 处理工具对标注 XML 文件进行格式检查,并检查填写得 xml 头部信息中,文件来源,标注者和修订者的信息 ( 用于标注结果比较和质量控制 ) ,文章标题,文章副标题,以及作者信息是否正确。

然后,我们开发了一个基本格式检查程序。主要对手工标注数据进行以下格式检查,以确保标注数据满足 :

1. 所有的词性标记均出现在词性标记集中。

2. 所有的短语句法结构标识和内部功能标识都出现在词性标记集中

3. 所有的标注短语都能够闭合,其左右边界标志能够对应,并且没有出现跨越短语的问题,右边界后跟随着对应的短语句法结构标识和内部功能标识。

4. 整个标注文本中空格符,回车符,都满足标注规范的要求。以及不存在误输入的字符。

在基本格式检查的基础上,我们设计了对不同标注人员对于相同语料标注结果进行比较的系统。比较的结果能够根据给定的要求,将相关的上下文摘录出来,形成一个单独的文件,以便于人工讨论和比较。

最后,我们正在设计一个强大的分析器。将分析全部标注数据的一致性,包括

1. 对于一个组成词语相同的短语,其标出的短语标识是否一致。并对不一致的情况,进行人工分析,修改可能找出的错误。

2. 对于连续若干相同词,标注的短语边界,以及短语标识是否一致。并对不一致的情况,进行人工分析,修改可能找出的错误。

3. 利用标注规范和标注语料中获得的知识建立一个高效的浅层句法分析器,将此分析器应用于原语料中,并比较自动分析的结果与人工标注的结果。修改可能找出的人工标注错误以及完善自动句法分析器的性能。

综合以上工作,我们期望能保证最终标注数据在短语边界划分和短语标注的正确率和一致性大约 99% ,以满足设计需要。

 

<<语料文件的标注格式         当前进展>>

 

Last modified on Thu, 11 May 2006 11:54:24 +0800
THE HONG KONG POLYTECHNIC UNIVERSITY