English
3. 树库标注规范
树库标注规范,是开发一个树库的第一步。为了确保标注的质量,标注规范的设计应遵循树库设计原则,同时必须清晰,简洁,容易理解和操作。标注规范的设计包括对短语句法信息标注的规定,对短语语义信息标注的规定,以及不同的短语层次的定义和标注流程。由于PolyU树库是在分词/词性标注语料库基础上开发的,因此,树库设计可以忽略这个部分的工作。
在标注过程中,是使用独立子句作为处理单元的。 由于在形态上很多完整的汉语句子,会被“,;。?!:”等标点符号隔开为几个具有完整的句法结构的语言片断,也就是独立子句 (Sub-sentence) 。考虑到自动句法分析的需求,我们的句法结构标注工作,将以独立子句为处理单元。这些独立子句被看作是与上下文无关的独立单位,因此,如果独立子句中存在着省略成分的话,省略成分不需要标出补足。本文以下部分中除非特殊标出,所有提到句子都是指独立子句。
在短语标注过程中,每一个识别出的短语,将使用 '[‘ 作为短语的左边界,而使用 ']' 作为短语的右边界。在‘ ] '之后,将根据 [ 短语 ]SS-FF 的格式给出标示。其中 SS 是一个必需的句法标志,如 NP 名词短语, VP 动词短语等。 FF 是一个可选的内部结构或者语法功能标志。如 BL 并列关系, SB 主谓关系等。例如 [荣誉/n 与/c 尊严/n]NP-BL (honor and dignity).
短语句法信息标注
参考Penn Chinese Treebank 和Sinica Treebank,短语句法信息标注规定为:
NP — Noun phrase. 名词性短语以名词为核心词,通常短语中最后一个名词为名词性短语的核心词 . e.g. [市场/n 经济/n#]NP (market economy)
TP — Time phrase. 时间短语包含有连续的时间词,通常用来描述时间信息 e.g. [早上/t 8时/t]TP (8:00in the morning)
FP — Position phrase. 时间短语包含有连续的时间词,通常用来描述时间信息 . e.g. [内蒙古/ns 东北部/f#]FP (North-east of Inner Mongolia)
VP — Verb phrase. 动词短语通常以谓词为核心词,并不包含主语 . e.g. [顺利/a 启动/v#]VP-ZZ (successfully start), and [分析/v# 问题/n]VP-SBI (analyze the problem)
AP — Adjective phrase. 形容词短语以形容词为核心词,同时整个短语在句子中,仍然为形容词的功能。 e.g. [公正/a 合理/a#]AP (fair and reasonable)
DP — Adverb phrase. 副词短语以副词为核心词,同时整个短语在句子中,仍然为副词的功能。 e.g. [已/d 不再/d#]DP (no longer)
PP — Preposition phrase. 介词短语以介词为开始标志。 e.g. [在/p 贵州/ns 农村/n]PP (In the countryside of GuizhouProvince)
QP — Quantifier phrase. 量词短语由数词和量词组成,并以量词为核心词。通常量词短语用于名词短语或者动词短语的修饰语 . e.g. [数千/m 名/q#]QP 士兵/n (several thousand soldiers)
SV — Subject-verb phrase. 主谓短语通常包含有一个名词成分作为主语一个动词成分作为谓语 . e.g. [规模/n 收益/n]NP 递增/v]SV (scale income increases)
IC — 句内子句 [如何/r 多/a 方面/n 开辟/v 就业/vn 渠道/n]IC 是/v (how to provide more job opportunities is)
短语语义信息标注
短语语义信息的标注是PolyU Treebank所特有的设计。并不是每个短语都需要标注语义信息,而是在人工标注过程中,如果发现短语符合预先规划的语义类别,则进行标注。
语义信息对于很多NLP应用来说都是非常重要的。例如 山东/ns 烟台/ns 市/n 和 烟台/ns 大学/n 都是名词短语,但是前者是一个地名,后者是一个组织机构名。通过标注对应的语义信息 NS和NT,这两个短语的语义信息可以被区分开来。这样的信息对于命名实体识别和分类是非常有帮助的。同时,语义信息的标注可以视为人工语法标注的副产品,因为标注人员在分析句法信息的同时,已经可以发现对应的语义信息了。因此,语义信息的标注消耗是可以承受的。
适用于名词短语的语义标注
NT — 组织机构名. e.g. [烟台/ns 大学/n]NP-NT (YantaiUniversity)
NS — 地名. e.g. [江苏省/ns 铜山县/ns]NP-NS (JiangsuProvince, Tongshan Country)
NR — 人名短语. e.g. [胡/nr 锦涛/nr]NP-NR (Hu Jintao)
NZ — 其他专有名词短语. e.g. [诺贝尔/nr 奖/n]NP-NZ (The Nobel Prize)
BL — 并列关系. 并列关系意味着短语内包含有两个或者更多个并列的元素. e.g. [中国/ns 与/c 南非/ns]NP-BL (Chinaand South Africa)
FZ — 复指关系. 复指关系意味着短语内包含着两个相等的元素 e.g. [[国家/n主席/n]NP [江/nr 泽民/nr]NR]NP-FZ (the president of China, Jiang Zemin)
PZ — 偏正关系. 偏正关系是名词性短语的默认内部结构。名词为核心词,其他词为修饰词 e.g. [美丽/a 的/u 花/n#]NP-PZ (beautiful flower)
FS — 名词复数. e.g. [朋友/j# 们/k]NP-FS (friends)
DE — 的字结构是中文中一种特殊的结构,它以的字为结尾,意味着补语的缺省 e.g. 比/v [原先/d 预料/v 的/u]NP-DE 低/a (lower than originally expected)
SU — 所字结构是中文中的一种特殊结构。典型结构是所 (SUO)+VP+NP. e.g. [所 /u 画 /v 禽鸟 /n#]NP-SU (the birds painted by)
适用于动词短语的语义标注
SBI — 述宾关系意味着动词短语中包含一个谓词和它的对象 e.g. [打/v# 篮球/n]VP-SBI 是/v 我/r 的/u 爱好/n (playing basketball is my hobby)
SBU — 述补关系意味着动词短语的第二个部分是第一个部分的补语. e.g. [医治/v# 无效/v]VP-SBU (ineffectively treat)
ZZ — 状中关系意味着在短语中动词为中心词,其他词是它的修饰词. e.g. [[有效/ad 打击/v#]VP-ZZ 了/u 敌人/n]VP-SBI (effectively strike the enemy)
SD — Serial verb constructions. 连动结构意味着动词短语中包含着多个连续动词,并且通常最后一个动作是最重要的 . e.g. [[审核/v 发放/v]VP-SD 护照/n]VP-SBI (verify and issue the passport)
BA — 把字结构是汉语动词短语中的一种特殊结构,典型模板是把 (BA)+NP1+VP. e.g. [把/p [扶贫/vn 开发/vn 工作/vn]NP-PZ 作为/v#]VP-BA
BEI — 被字结构是汉语动词短语中的一种特殊结构,典型模板是 被(BEI)+NP+VP and NP+被+VP. eg. 商店/n [被/p [责令/v# 停业/vn]VP-SBI]VP-BEI (the shop was ordered to close)
适用于时间短语的语义标注
PO — 时间点信息. e.g. [7月/t 1日/t]TP-PO (July 1)
DU — 时间段信息 A DU indicates a period of time. e.g. [今后/t 3/m年/q]TP-DU (following three years)
适用于介词短语的语义标注
YY — 原因信息. e.g. [因/p 饿/a]PP-YY 死亡/v (dead for hunger)
DX — 对象信息. e.g. [向/p [受灾/vn 地区/n]NP]PP-DX (to the disaster area)
DD — 地点信息. e.g. [在/p 深圳/ns]PP-DD (in Shenzhen)
FM — 方法信息. e.g. [通过/p [股票/n 上市/v]S]PP-FS (Through the stock market)
MD — 目的信息. e.g. [为/p 动武/v]PP-MD [找/v 借口/n]VP-SBI (looking for an excuse for war)
GJ — 工具信息. e.g. [用/p 公车/n]PP-GJ (using public-bus)
SJ — 时间信息 A SJ label indicates that a PP carries time information. e.g. [到/v 目前/t 为止/v]PP-SJ (up to now)
其他语义标注
DL — 动量信息. Eg. [十/m 下/v 江南/ns]VP-DL(visit Jiangnan 10 times)
ML — 名量信息 E.g. [五/m 个/q]QP-ML 苹果/n (five apples)
SL — 时量信息. SL label indicates that a QP carries time information. E.g. [30/m 年/q]QP-SL 里/f (in the 30 years)
短语标注流程
短语标注是浅层分析树库建立过程中的核心工作。在标注过程中,是使用独立子句作为处理单元的。 由于在形态上很多完整的汉语句子,会被“,;。?!:”等标点符号隔开为几个具有完整的句法结构的语言片断,也就是独立子句 (Sub-sentence) 。考虑到自动句法分析的需求,我们的句法结构标注工作,将以独立子句为处理单元。这些独立子句被看作是与上下文无关的独立单位,因此,如果独立子句中存在着省略成分的话,省略成分不需要标出补足。本文以下部分中除非特殊标出,所有提到句子都是指独立子句。
在短语标注过程中,每一个识别出的短语,将使用 '[‘ 作为短语的左边界,而使用 ']' 作为短语的右边界。在‘ ] '之后,将根据 [ 短语 ]SS-FF 的格式给出标示。其中 SS 是一个必需的句法标志,如 NP 名词短语, VP 动词短语等。 FF 是一个可选的内部结构或者语法功能标志。如 BL 并列关系, SB 主谓关系等。总计有 21 个 SS 标示和 20 个 FF 标示包含在标注规范中。
对于一个子句,
第一步骤 标示句子中的最大短语
最大短语是句子的主要句法结构,通常担负句子的主语、谓语、或者宾语。它是不能够被其他任何短语所包含的并且包含至少一个基本短语,担当一个句法功能的最长短语。由于它是标注的第一步骤,因此,在这个阶段不存在嵌套问题。 在这个过程中,如果主,谓,宾对应的语块由单个词语组成,也就是不包含短语的情况时,不需要标注此语块。最大短语构成了一个句子的主干。同时,最大短语的识别过程也是短语标注过程中最困难的一步。
第二步骤 标示最大短语中包含的基本短语
基本短语是结构简单,结合紧密,不包含嵌套结构,由连续词语构成的短语。在词组本位语法体系当中, base-phrase 被视为句法分析的基本单元 。通常,一个 base-phrase 是由一个实词来引导,作为核心词
在这个过程中,对基本短语的识别被限制在最大短语内部,也就是说,基本短语必须存在于最大短语内部,或者和最大短语重合。由于基本短语是语言结构中最稳定,最有规律,最能反映词语关系的单元。存在于基本短语中的词语,本身就反映出相对稳定的内在联系规律。基本短语的分析是非常重要的信息。
在识别基本短语的过程中,遵循 bottom-up 策略,以找到最基本的短语。
第三步骤 标示最大短语中包含的嵌套短语
在确定了句子中的基本短语以后,使用这些基本短语作为出发点,在最大短语范围内可以进一步识别嵌套的短语结构。
由于不计划进行完整句法标注,因此,对短语嵌套的层次进行了限制,考虑到应用的寻求,在标注过程中,将嵌套层次限制在最多 3 层。也就是说,标注后建立的浅层句法分析树的深度不超过 3 层。从而降低了结构复杂度。对于超过了 3 层的嵌套,则放弃。
第四步骤 标示短语中心词
|