English
1. 简介
通过对语料库中文本进行不同层次语言信息的标注,包括词,短语,子句,证据等层次的语言信息的标注,从而可以建立起一个句法语言信息的语料库,称为树库。目前,已经建立有针对于不同语言的树库。如英文中的Penn Treebank [Marcus 1993]和ICE-GB树库 [Wallis 2003]。中文的树库则包括 Penn Chinese Treebank [Xia et al. 2000; Xue et al. 2002]和Sinica Treebank [Chen et al. 1999; Chen et al. 2003]。
根据句法语言信息标注的深度,标注树库可以分成完整分析树库和浅层分析树库。其中,完整分析树库提供了对文本的完整句法分析,通常包括确定每个词的句法功能,确定句子中的语快,确定句子中的短语以及找到短语之间的联系等。完整句法分析最终将输出一系列完整建立的句法树。由于自然语言的复杂性,对自然文本的完全句法分析仍然是一个研究的难点,即使对于英语,经过长期大量的研究,仍然没能够建立出一个非常理想的,极高精度的句法分析器 (Parser) 。对于中文,完全句法分析器的研究难度就更大,效果也不够理想。与之相对,浅层句法分析 (Shallow Parsing) ,或者部分句法分析 (Partial Parsing) ,作为一种新的语言处理策略,不要求建立一个完整的句法树,而只要求识别出句子中有限度的句法信息,能够分析出来的结构稳定的短语 (Phrase) 或者语块 (Chunk) ,以及主谓关系,谓宾关系等等。浅层句法分析的结果不是一棵完整的句法树,而是识别出句子中的语块,各个语块是完整句法树的一个子图,只要进一步分析语块之间的依附关系,就能够构成完整的句法树。因此,可以视为将完全句法分析分解为两个部分,第一个部分是分解出句子中可以识别的短语,也就是浅层句法分析。第二部分通过标示出短语直接的句法关系以形成完整的句法树。由于简化了句法分析,并且主要用于标示出结构相对稳定的短语/语块,浅层句法分析系统的设计难度得以有效降低。其输出精度也能够有较大的提高,同时系统也具有较好的鲁棒性。可以广泛的应用在大规模真实文本处理系统中。
在目前为止,尚未有大规模的浅层分析树库作为公共研究资源开发和发布。
不同于完全句法分析,浅层句法分析没有一个严格的定义,和操作层次的规定[Dalemans 1999; Sun 2001; Li et al. 2003]。浅层句法标注需要标注出哪些短语,是否标示长短语中内部包含的单位较小的短语已经它们之间的内部联系等等,都没有一定的严格规定,取决于设计者根据建立语料库目的的应用来决定。因此,在设计建立一个浅层分析树库的工作中,需要重点考虑两个主要问题:
(1) 那些句法信息需要标注 (2) 对句法信息标注到什么样的深度
这两个问题的决定实际上依赖于对语料库的应用目的,以及资源和开发开销的能力所确定。在目前为止,尚未有大规模的浅层分析树库作为公共研究资源开发和发布。考虑到本中心研究中涉及的几个典型的NLP应用,如搭配提取,术语提取,术语描述获取等。因此, PolyU 树库被设计为一个浅层分析树库,这样的一个树库能够被用来支持自动浅层句法分析器的开发,测试,以及其他自然语言应用。PolyU树库将句法分析的层次,限制到以下层次。首先是最大短语maximal phrases,通常最大短语担负着句子的主语、谓语、宾语、补足语等成分。然后是在最大短语内部识别基本短语base-phrases,也就是最小的句法成分。此外,以基本短语为出发点,在最大短语内部识别一层的嵌套短语,称为mid-phrases。对于每一个识别出的短语,将给出一个必须的句法信息标示和一个可选的语义信息标示。本树库的一个突出特点是对一些语义信息的标注。这些信息对于NLP研究非常有效但是很难自动的获取。此外,大多数已有的树库没有标注语义信息,因此,我们的工作会提供更多的信息。
在建立 PolyU 树库的过程中,将遵循北京大学提出的汉语词组本位语法体系Phrase-Standard Grammar (PSG),来设计和建立这个树库[Yu et al. 1998]。这是考虑到:1. 汉语词组本位语法体系是一个比较完备的,在中国大陆所广泛接受的句法体系。2. 为了降低树库标注的消耗和确保资源的最大共享能力,计划在北京大学提供的人民日报标注分词语料库基础上进行标注。而这一资源是遵循汉语词组本位语法体系建立的。
在树库设计过程中,遵循了四个设计原则,也就是
(1) 良好的资源共享度
(2) 较低的结构复杂度
(3) 提供充分的语言信息
(4) 足够大的数据规模
在随后的部分里,将介绍建立 PolyU 树库的工作。包括,总体概况和总体目标,以及总体设计原则;语料库的选择;语料的分词和词性标注工作的情况,短语标注的方法;语料库中文件的格式和标注格式;人工标注语料库的错误检查,质量控制,一致性检查和工作流程;最后,将介绍项目的进展。
|