Chinese Computing Lab
 Site Map 
About CCL
Site News
Projects
PolyU TreeBank
Chunk Bank
Collocation Extraction
ASAB
CERG
Hong Kong Character Glyphs
Jyutping
Dash Line
Publications
Download Area
Contact Information
Useful Links


Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

PolyU Treebank

 

English

 

 

  1. 简介
  2. 总体概况和设计原则
  3. 树库标注规范
  4. 树库标注的实现
  5. 语料文件的标注格式
  6. 人工标注的工作方式,进度安排和质量保证
  7. 当前进展
  8. 应用PolyU浅层树库
  9. 发表文章
  10. 致谢
  11. 参考文献
  12. 附件1: 词性标注表
  13. 附件2: 短语句法信息标示集
  14. 附件3: 短语语法信息标示集
  15. 附件4: 标注实例
  16. PolyU Treebank 数据共享

 



8. 应用PolyU浅层树库

由于PolyU浅层树库同时提供了句法和语义信息,因此,可以被应用在很多NLP应用领域。首先,可以被用于训练和测试自动浅层句法分析器。其他的应用则包括搭配提取和时间表达获取等。

在2003年,CCLab开发了一个window-based给予统计的搭配提取系统,其精确度达到61%。由于提取出来的一下搭配实际上是一些高频率共现的词语组合,例如 医生-护士,因此被称为假搭配。由于这些假搭配具有相当高的共现统计优势,因此不能够通过单纯使用统计信息加以区分。由于语言学研究指出,搭配通常发生在一个短语内部,或者相关短语的核心词之间[Zhang and Lin 1992],因此,我们可以利用浅层分析树库中提供的句法信息,包括短语边界信息和中心词信息,对搭配候选的搜索进行细化和修正。从而,有效的提高搭配提取的精确度和召回率。

PolyU浅层分析树库也被用于时间表达式获取,由于树库中对时间短语TP标注了两类语义信息,时间点信息(TP-PO)和时间段信息(TP-DU)。这样的信息对于获取和分析时间表达是非常有益的。

 

<<当前进展         发表文章>>

 

Last modified on Thu, 11 May 2006 11:54:26 +0800
THE HONG KONG POLYTECHNIC UNIVERSITY