Chinese Computing Lab
 Site Map 
About CCL
Site News
Projects
PolyU TreeBank
Chunk Bank
Collocation Extraction
ASAB
CERG
Hong Kong Character Glyphs
Jyutping
Dash Line
Publications
Download Area
Contact Information
Useful Links


Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

PolyU Treebank

 

English

 

 

  1. 简介
  2. 总体概况和设计原则
  3. 树库标注规范
  4. 树库标注的实现
  5. 语料文件的标注格式
  6. 人工标注的工作方式,进度安排和质量保证
  7. 当前进展
  8. 应用PolyU浅层树库
  9. 发表文章
  10. 致谢
  11. 参考文献
  12. 附件1: 词性标注表
  13. 附件2: 短语句法信息标示集
  14. 附件3: 短语语法信息标示集
  15. 附件4: 标注实例
  16. PolyU Treebank 数据共享

 



7. 当前进展

目前,我们已经完成了语料库标注规范的设计和完善,并遵循此规范和我们计划的工作流程,完成了对 100 万词次语料库的手工标注工作。标注语料数据的一些详细情况如下。

标注数据中包含1,022,761个中文词语,对应于这些词语,共识别出包含嵌套短语的286, 057个短语。对应的句法信息统计如下表所示。

NP TP FP SV VP PP DP AP QP IC
143063 5623 2652 5677 81648 27055 197 19580 11049 4198

Table 1. 句法信息标注统计表

这表明我们的短语句法结构体系设计合理,基本完善,能够覆盖 100 万词语料中出现的语言现象。

对应于每一个识别出的短语,如果包含有规范中列出的语义功能信息,则进行了对应的语义信息标注。标注数据中的语义信息统计如下表所示。

BL FZ PZ ZZ SBI SBU SD PO DU FJ JY
14264 6279 0 682 16290 9387 5246 0 939 276 2789
DL ML SL YY DX DD FS MD GJ SJ OT
27 134 415 528 10645 669 1314 1124 106 3016 0
NT NS NR NZ DE SU XD BA BEI    
7813 1516 0 335 1248 124 194 1041 385    

Table 2. 语义信息标注统计表

原始语料文件,与标注语料对齐率 100%, 通过程序验证,还原标注语料结果与未标注原始语料对齐率 100%。分词准确率大于 99.9% ,词性标注正确率大于 99.5% ( 此数据根据北京大学技术报告,在标记过程中,经过 3 人以上取得共同结论后,对标注数据进行了小量修正,确保其分词和词性标注准确率不低于 99.9% 和 99.5%)

对于重复标注数据部分,平均达到的一致性为 99.8 % (不计 OT )。对非重复标注数据部分精确度和一致性的评估平均可以达到98%的正确率。通过进一步的检查和修订。我们期望最终的标注一致性可以达到99%。

我们下一步的工作,将集中在以下几个方面

1. 建立有效的一致性和精确度评估系统,以保证标注数据质量达到设计要求。

2. 建立便捷有效的,用户界面友好的语料库检索工具。包括对给定关键词,关键短语的上下文检索,对短语构成规则的总结,对给定短语规则找出所有的实例。可视化的显示短语边界和构成层次等信息。

3. 利用标注规范和标注语料中获得的知识建立一个高效的浅层句法分析器,将此分析器应用于原语料中,并比较自动分析的结果与人工标注的结果。修改可能找出的人工标注错误以及完善自动句法分析器的性能。

4. 利用标注语料库的数据,改进自动搭配提取算法,以实现高的精确度和召回率。在完成高效的浅层句法分析器的基础上,可以将其用于未标注文本,以评估对自动搭配提取算法的影响。以及适用于更多的语料数据,以获得丰富精确的搭配信息。

 

<<人工标注的工作方式,进度安排和质量保证         应用PolyU浅层树库>>

 

Last modified on Thu, 11 May 2006 11:54:26 +0800
THE HONG KONG POLYTECHNIC UNIVERSITY