Chinese Computing Lab

Site Map

Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

English

4. 树库标注的实现

4.1 语料准备和选择

本浅层分析树库的是建立在北京大学半年人民日报手工分词，标注语料库的工作基础之上的。由于北京大学人民日报分词语料库包含超过 500 万词，而树库的建设只需要 100 万词，因此需要对语料进行选择。原则是保持原文的全貌，包括标题，作者，段落等信息，因此我们不采取从语料库中每篇文章中截取部分的方式，而是保存了选中原文的全貌。考虑到人民日报每天分为多个版面，以政经新闻为主，历史，军事，娱乐，文学为辅。每日的版面文章比率在一定程度上代表了现代汉语正规媒体的文字分布比率，因此我们也决定保持每日文章的全部。也就是说，我们将从总体数据库中选择出若干天的全部文章，并使其规模达到 100 万词次。为了避免短期热点新闻的影响，我们是在全部 6 个月的数据中，每个月抽出若干天的全部文章组成 100 万词次的原始语料库。

选出的 100 万词次的原始语料库是已经经过切分和词性标注的。我们将在这 100 万词次的数据上进行浅层句法标注。并通过使用 xml 格式保留原文的格式信息和标注控制等信息。原始切分标注语料和句法标注后的语料分开保存管理。同时，标注后的语料库可以通过程序去处标注而恢复到原语料状态。以便于实施标注的自动监测，以及未来建立的自动浅层句法结构分析器的学习和性能评估使用。

4.2 分词与词性标注

本浅层分析树库的分词规范和词性标准基本保留了北京大学语料库的原貌。其中，词语的切分规范尽可能同中国国家标准 GB13715 “信息处理用现代汉语分词规范” （以下简称为“分词规范”）保持一致。以北京大学《现代汉语语法信息词典》中大约 6 万条词作为基本的切分用词表，在标注实践中，不断补充词表和词性信息，词性标记集基本采用北京大学的《现代汉语语料库加工规范——词语切分与词性标注》（2001年7月）。

在词类标注工作上遵循类有定用的思想，依据词语在具体语言环境中所充当的句法功能确定类别，认为汉语的词类与句法成分之间存在某种一一对应关系。例如：“学习”在主宾语位置、充当主宾语的中心词时与当它充当谓语时的标记是不同的。在我们的实际工作中，根据实际标注工作，我们做了如下小量修正。

1. 取消了 Qg 量词语素， Ug 助词语素， g 语素词这三种存在于北大词性标注规范中，但实际在标注语料库中没有出现的词性标记。

2. 考虑到在下一步短语级的标注，将全部采用大写字母作为标示，为了表示区分，所有词性级标识将全部使用小写字母表示，因此，原规范中 Ag 形语素， Bg 区别语素， Dg 副词语素 , Mg 数语素 , Rg 代语素， Tg 时语素将转换为 ag, bg, dg,mg, rg,tg

3. 北大标注规范中，在词性标注的同时，一些有多个词组成的专有名词，包括 ns 地名， nt 组织名，和 nz 其他专有名词，已经使用了短语标志。在我们的工作中，这些短语标志被取消，代之以符合我们短语标注规范的标示。这部分的工作将在下面一个节进行介绍。

本系统中最后采用的词性标示，详见附录1。

4.3 短语标注

最大短语识别

每个最大短语至少包含一个基本短语，同时担负句子中的一个句法功能。在下面的句子中，

中国/ns 旅游年/n 是/v 一/m 次/q 国家级/b 的/u 宣传/vn 促销/vn 活动/vn (e.g.1)

可以发现，这个句子是一个主谓宾结构，其中 中国/ns 旅游年/n 是主语，是/v 是谓语，一/m 次/q 国家级/b 的/u 宣传/vn 促销/vn 活动/vn 是宾语。因此，可以从句子中识别出两个最大短语，[中国/ns 旅游年/n]N [一/m 次/q 国家级/b 的/u 宣传/vn 促销/vn 活动/vn]NP 。 虽然 是/v 担负了句子的谓语，但是由于它只包含了一个实词，为避免歧义，这样只包含一个实词的最大短语不会标出。因此，其标注结果是

[中国/ns 旅游年/n]NP 是/v [一/m 次/q 国家级/b 的/u 宣传/vn 促销/vn 活动/vn]NP-PZ

另外一个例子

富裕/v 起来/v 的/u 当地/a 农民/n 自发/d 地/u 组织/v 了/u 多个/a 业余/a 乐团/n (Eg. 2)

这个句子可以切分为三个句法部分，其中 富裕/v 起来/v 的/u 当地/a 农民/n 是句子的主语, 自发/d 地/u 组织/v 了/u 担当谓语, 多个/a 业余/a 乐团/n 是宾语 . 因此，句子的标注结果是

[富裕/v 起来/v 的/u 当地/a 农民/n#]NP [自发/d 地/u 组织/v# 了/u]VP-ZZ [多个/a 业余/a 乐团/n]NP-PZ

绝大多数的句法功能标示可以用于最大短语，除了AP形容词短语，DP副词短语，QP量词短语。同时，大多数情况下，NP-NT, NT-NS, NP-NZ 只用于标注最大短语，因为这些短语通常不认为包含嵌套成分，因此不对其内部结构进行分析

基本短语识别

基本短语的识别是在最大短语范围内进行的。通常一个基本短语包含2-4个词，其中往往有一个实词作为核心词

以最大短语 [一/m 次/q 国家级/b 的/u 宣传/vn 促销/vn 活动/vn]NP-PZ in e.g.1 为例, [一/m 次/q]QP 和 [宣传/vn 促销/vn 活动/vn#]NP-PZ, 是两个基本短语。因此，这个句子进一步标注为

[中国/ns 旅游年/n]NP 是/v [[一/m 次/q]QP 国家级/b 的/u [宣传/vn 促销/vn 活动/vn]NP-PZ]NP-PZ.

可以发现, [中国/ns 旅游年/n]NP 和 是/v 也是两个基本短语。但是由于他们与最大短语重合，因此，不需要再次标注。

需要指出的事，基本短语的识别是树库建设中重要的基础工作。最大短语的识别可以视为自顶向下的句法分析过程，而基本短语的识别则遵循了自底向上的分析过程。

嵌套短语识别

嵌套短语的识别是以基本短语为出发点，在最大短语范围内，进行识别的。以句子1为例，标注结果为

[中国/ns 旅游年/n]NP 是/v [[一/m 次/q]QP [国家级/b 的/u [宣传/vn 促销/vn 活动/vn]NP-PZ]NP-PZ]NP-PZ

由于浅层分析将短语识别限制到3级，因此，超过3层的嵌套结构将被忽略。例如下面的句子显示了三层嵌套的标注结果
[目前/t [企业/n 发展/vn]NP [值得/v 注意/v 的/u [[几/m 个/q]QP 问题/n]NP-PZ]NP]NP
而实际上，完全的短语识别将得到四层嵌套的结果

[目前/t [[企业/n 发展/vn]NP [值得/v 注意/v 的/u [[几/m 个/q]QP 问题/n]NP-PZ]NP]NP]NP

由于规范中限制了三层嵌套，因此，额外的嵌套标注被忽略。

标示短语中心词

在 PolyU Treebank 中，使用 '#' 来表示基本短语的中心词。这个中心词通常为实词。

在多数情况下，短语中心词会出现在固定的位置。如 NP 名词短语的中心词通常是其中的最后一个名词。这类位置成为默认位置。如果中心词出现在这个位置则不予标注。否则，将手工标出。例如 [美国/ns 科学家/n]NP [绘制/v出/v]VP-SBU, 其中，[绘制/v 出/v] 是动词短语。其核心词为绘制 /v, 由于它不在默认位置，因此需要标示为 [美国/ns　科学家/n]NP [ 绘制/v# 出/v]VP-SBU。 注意科学家/n 实际上也是中心词，由于它出现在默认位置，因此不需要标出。

＜＜树库标注规范

语料文件的标注格式＞＞

Last modified on Thu, 11 May 2006 11:54:22 +0800