English
7. 当前进展
目前,我们已经完成了语料库标注规范的设计和完善,并遵循此规范和我们计划的工作流程,完成了对 100 万词次语料库的手工标注工作。标注语料数据的一些详细情况如下。
标注数据中包含1,022,761个中文词语,对应于这些词语,共识别出包含嵌套短语的286, 057个短语。对应的句法信息统计如下表所示。
NP |
TP |
FP |
SV |
VP |
PP |
DP |
AP |
QP |
IC |
143063 |
5623 |
2652 |
5677 |
81648 |
27055 |
197 |
19580 |
11049 |
4198 |
Table 1. 句法信息标注统计表
这表明我们的短语句法结构体系设计合理,基本完善,能够覆盖 100 万词语料中出现的语言现象。
对应于每一个识别出的短语,如果包含有规范中列出的语义功能信息,则进行了对应的语义信息标注。标注数据中的语义信息统计如下表所示。
BL |
FZ |
PZ |
ZZ |
SBI |
SBU |
SD |
PO |
DU |
FJ |
JY |
14264 |
6279 |
0 |
682 |
16290 |
9387 |
5246 |
0 |
939 |
276 |
2789 |
DL |
ML |
SL |
YY |
DX |
DD |
FS |
MD |
GJ |
SJ |
OT |
27 |
134 |
415 |
528 |
10645 |
669 |
1314 |
1124 |
106 |
3016 |
0 |
NT |
NS |
NR |
NZ |
DE |
SU |
XD |
BA |
BEI |
|
|
7813 |
1516 |
0 |
335 |
1248 |
124 |
194 |
1041 |
385 |
|
|
Table 2. 语义信息标注统计表
原始语料文件,与标注语料对齐率 100%, 通过程序验证,还原标注语料结果与未标注原始语料对齐率 100%。分词准确率大于 99.9% ,词性标注正确率大于 99.5% ( 此数据根据北京大学技术报告,在标记过程中,经过 3 人以上取得共同结论后,对标注数据进行了小量修正,确保其分词和词性标注准确率不低于 99.9% 和 99.5%)
对于重复标注数据部分,平均达到的一致性为 99.8 % (不计 OT )。对非重复标注数据部分精确度和一致性的评估平均可以达到98%的正确率。通过进一步的检查和修订。我们期望最终的标注一致性可以达到99%。
我们下一步的工作,将集中在以下几个方面
1. 建立有效的一致性和精确度评估系统,以保证标注数据质量达到设计要求。
2. 建立便捷有效的,用户界面友好的语料库检索工具。包括对给定关键词,关键短语的上下文检索,对短语构成规则的总结,对给定短语规则找出所有的实例。可视化的显示短语边界和构成层次等信息。
3. 利用标注规范和标注语料中获得的知识建立一个高效的浅层句法分析器,将此分析器应用于原语料中,并比较自动分析的结果与人工标注的结果。修改可能找出的人工标注错误以及完善自动句法分析器的性能。
4. 利用标注语料库的数据,改进自动搭配提取算法,以实现高的精确度和召回率。在完成高效的浅层句法分析器的基础上,可以将其用于未标注文本,以评估对自动搭配提取算法的影响。以及适用于更多的语料数据,以获得丰富精确的搭配信息。
|