English
2. 总体概况和设计原则
由于目前为止尚未有开发好的大规模浅层分析树库,因此PolyU树库的设计首先参考两个已有的完全分析树库:Penn Chinese Treebank 和 Sinica Treebank。其中Penn Chinese Treebank 由美国宾州大学开发,它遵循了Government and Bind framework,通过完全的手工标注,最终获得了50万词的树库[Xue et al. 2002]。Sinica Treebank 是由Academic Sinica, Taiwan开发,遵循了Information-based Case Grammar (ICG),首先利用一个head-driven chart parser对文本进行自动语法分析,在此基础上,进行了人工校验和补充。最终获得了一个33万词的树库,其中包含39000个句法树[Chen et al. 1999; Chen et al. 2003]。
PolyU 语料库的总体目标是手工建立起一个包含 100 万词的浅层分析树库。并达到一个较高的标注精度和标注一致性。在建立 PolyU 语料库的过程中,将遵循北京大学提出的汉语词组本位语法体系。在这个语法体系中,由核心实词引导的短语扮演了句子的核心成分,由短语之间的相互关系来组成整个句子。
建立一个浅层句法分析树库,可以用于几方面的应用。
首先,它可以直接用于支持搭配提取的研究。这也是整个树库建立的最初目的。改进的搭配提取算法可以直接应用于包含有浅层句法分析信息的树库中。将已经标示出的短语信息,运用于搭配提取,从而获得一个较高的精度。
其次,它可以用于获取汉语浅层分析知识,从而建立起一个强大的汉语浅层句法分析器,这个句法分析器可以应用于普通文本,从而提高搭配提取系统对于未标注文本的精度,同时期望获得更丰富的搭配信息。
最后,浅层句法分析树库,可以作为开放资源,应用于大量汉语自然语言处理的基础性课题包括最长名词短语的识别,一般短语的识别,短语构成规则的研究,实词组合规则,语义分析和语义消歧等领域。而不仅仅局限于搭配提取的工作。
总之,作为汉语自然语言处理的基础性工作和研究资源,浅层句法分析树库的建立是一个非常重要和有意义的工作。
在建立一个大规模的浅层分析树库的自然想法就是,从一个已经建立好的完整分析树库中提取其中的浅层句法结构。但是,目前所有可以得到的完整分析树库包括 Penn 树库和台湾 Sinica 树库一方面采用了不同于北京大学词组本位语法体系的语言体系,另一方面,这两个树库的规模远远小于预定的规模。因此,将在遵循词组本位语法体系的基础上,设计和手工建立 PolyU 树库。
PolyU 树库的设计原则包括:
(1) 良好的资源共享度
PolyU 树库的设计中,首先考虑的问题就是希望 PolyU 语料库具有良好的资源共享度。这样的资源共享度包含了两个方面的意义,一方面是希望 PolyU 树库的建设是建立在已有的广泛接受的资源之上,有效的利用已有的资源和研究成果。另一方面是希望建成的 PolyU 树库可以很好的作为公共资源被其他研究机构使用。
为了达到这一目标,首先, PolyU 树库遵循了得到广泛接受和使用的汉语词组本位语法体系。从而保证整个的标注工作容易被其他研究机构了解和使用。其次,汉语存在着连续书写不分词的情况,因此,高精度的分词和词性标注是进一步句法功能标注的基础。 考虑到加快短语标注工作的进度和提高标注精度的要求, 在本项目中,采用了北京大学提供的人民日报标注分词语料库 进行维护和小的修订,并在此基础上进行句法结构的标注工作 。该语料库遵循国家标准 GB13715, 信息处理用汉语分词标准来进行分词,并根据现代汉语语法知识库的知识来进行词性标注。通过 对 1998 年上半年的人民日报全文数据,进行半自动及其切分和词性标注以后,使用人手进行反复和交叉检查后完成的。根据北京大学的报告,该语料库含含词语 500 余万。其最终版本,分词准确率大于 99.9% ,词性标注正确率大于 99.5% 。选择了这个分词词性标注语料库的基础上,就使本项目的工作建基在一个切分规范标准,词性标注理论体系完善,标注精度理想的系统之上。同时,人民日报是相对正式的出版物,原数据中的错误率非常低,同时涵盖政治,时事,经济,军事,文学等多个领域。是可以有效的代表书面现代汉语特征的资源。相对平衡,具有代表性的数据标注,可以保证标注结果的平衡和代表性。
(2) 较低的结构复杂度
较低的结构复杂度意味着标注框架应简单和清晰,同时使用的标注符号和功能信息应广泛接受和使用。考虑到浅层句法分析的特点, PolyU 浅层分析树库的工作将集中在短语和短语中心词的标注。同时忽略掉句子级的句法信息标注。
通常, base-phrase 基本短语被定义为结构简单,结合紧密,不包含嵌套结构的短语。在词组本位语法体系当中, base-phrase 被视为句法分析的基本单元,而不是词。首先,汉语中词语使用灵活,一个词可以有不同的词性,在句子中担当不同的成分。另一方面,汉语短语的使用则明显稳定,也就是说不同类型的短语在句子中担当的功能比较稳定。此外,研究指出, 汉语短语的构成规则和汉语成句规则基本一致。因此,基本短语被视为基本的句法单元。通常,一个 base-phrase 是由一个实词来引导,作为核心词。典型的基本短语包括基本名次短语,基本动词短语等等。例如
[市场/n 经济/n]NP [团体/n 旅客/n]NP
基本短语是语言结构中最稳定,最有规律,最能反映词语关系的单元。存在于基本短语中的词语,本身就反映出相对稳定的内在联系规律。基本短语的分析是非常重要的信息。
在确定了句子中的基本短语以后,使用这些基本短语作为出发点,可以进一步识别嵌套的短语结构,直到最大短语层次。由于不计划进行完整句法标注,因此,对短语嵌套的层次进行了限制,考虑到应用的寻求,在标注过程中,将嵌套层次限制在最多 3 层。也就是说,标注后建立的浅层句法分析树的深度不超过 3 层。从而降低了结构复杂度。
在实际标注过程中,
第一步标出句子中的最长短语,也就是不能够被其他任何短语所包含的并且包含至少一个基本短语,担当一个句法功能的最长短语。
第二步,在最长短语中标示出句子中出现的基本短语 (Base Phrase) ,如果基本短语和最长短语相重合,则不需要另外标出。在此过程中,短语的中心词将标示出来。 通常名词短语以最后一个名词作为中心词,动词短语,形容词短语以最后一个动词为中心词。对于满足默认情况的短语中心词不必标出,只需要标出不符合默认情况的短语中心词。
第三步,在最长短语范围内,为基本短语作为起点,对最长短语中可能包含的基本短语和非基本短语进行标识,并对其中的内部结构进行标识。在这个过程中,出于简化标注和标识信息相对稳定,紧密的考虑,最长短语内部的短语结构,只进行从基本短语向外的 1 层扩展标注。也就是说保持最长短语这个句法子树的深度不超过 3 层。
(3) 提供充分的语言信息
尽管浅层句法分析会丢失一些句子级的句法信息,但仍然期望建立的树库可以提供充分的语言信息供其它研究使用。过去的一些浅层分析树库往往只提供基本短语的标注。但是对于实际应用来说,只标示出基本短语是不足够的。因此,在本项目中,将进行基本短语,嵌套短语和最长短语的标注,此外,对于每一个短语,将给出一个句法功能标示,和一个可选的语法功能标示。同时还包括了短语中心词的标注。例如“国家航空和宇宙航行局”(NASA)是一个名词短语,而且被标注为NP。同时从语义角度,可以发现这个短语是一个组织机构的名字,因此这个短语会被额外的加上语义标注NT来注明这样的语义信息。可见,PolyU 树库提供了比chunk bank更多的句法和语义信息。这些标注出的语言信息,既保证了标注的难度和耗费可以控制在允许的范围之内,同时,这些信息可以充分的支持许多自然语言处理领域的研究工作。
(4) 足够大的数据规模和良好的标注质量
确定标注语料库的规模,取决于两个方面的考虑,一方面语料的规模期望能够达到描写的充分性,也就是希望标注语料库的规模能够充分反映汉语的短语构成规则。近年来的研究表明,自然语言中的许多信息之间的关系都满足 Zipf 定律,也就是说如果按照语言单位的频率从高到低的排列顺序,那么一个单位的频率 f 和它的排列秩 r 之间近似成反比。其中 k 为常数。他的意义在于指出极少量高频的语言单位的出现次数已经覆盖了语料库总语言单位数的绝大部分。而占据较大比率的低频语言单位类别在有很小的出现频率。一些研究已经证明, Zipf 定律不仅适用于传统的词频,词的共现频率等领域,而且也适用于句法结构规则的分布情况。为了能够充分分离低频规则和非规则的情况,语料库需要相当的规模,以保证各种句法规则有一定量的出现频率。但是语料库也不是越大越好,随着语料库规模的扩大,句法规则的数目也会不断增长,带来更多的数据稀疏。根据英语研究的经验,句法结构研究需要的语料库规模一般在 50 万到 100 万词次之间。另一方面,我们也需要考虑实际上的可操作性,标注人员需要的工作时间等因素。综合考虑我们认为 100 万词次的规模是比较合适的。
良好的标注质量是树库标注的重要要求。为了降低标注错误,设计了一套清晰和可操作的的标注原则和标注手册。为了减少不同标注者之间的不一致,设计了一系列的标注后处理工具。同时,部分的数据将有多个标注者重复标注,以发现和改进标注的不一致问题。这些措施可以有效的降低标注错误率和提高标注的一致性。
综合起来说,我们设计的浅层分析树库就是在包含 100 万词次的已经分词和词性标注的人民日报语料上,对语料包含的独立子句中的,最长短语,基本短语,不超过两层的非基本短语以及短语中心词进行标示。
|