Chinese Computing Lab
 Site Map 
About CCL
Site News
Projects
PolyU TreeBank
Chunk Bank
Collocation Extraction
ASAB
CERG
Hong Kong Character Glyphs
Jyutping
Dash Line
Publications
Download Area
Contact Information
Useful Links


Warning: A non-numeric value encountered in /webhome/cclab/public_html/menu.php on line 69

PolyU Treebank

 

English

 

 

  1. 简介
  2. 总体概况和设计原则
  3. 树库标注规范
  4. 树库标注的实现
  5. 语料文件的标注格式
  6. 人工标注的工作方式,进度安排和质量保证
  7. 当前进展
  8. 应用PolyU浅层树库
  9. 发表文章
  10. 致谢
  11. 参考文献
  12. 附件1: 词性标注表
  13. 附件2: 短语句法信息标示集
  14. 附件3: 短语语法信息标示集
  15. 附件4: 标注实例
  16. PolyU Treebank 数据共享

 



3. 树库标注规范

树库标注规范,是开发一个树库的第一步。为了确保标注的质量,标注规范的设计应遵循树库设计原则,同时必须清晰,简洁,容易理解和操作。标注规范的设计包括对短语句法信息标注的规定,对短语语义信息标注的规定,以及不同的短语层次的定义和标注流程。由于PolyU树库是在分词/词性标注语料库基础上开发的,因此,树库设计可以忽略这个部分的工作。

在标注过程中,是使用独立子句作为处理单元的。 由于在形态上很多完整的汉语句子,会被“,;。?!:”等标点符号隔开为几个具有完整的句法结构的语言片断,也就是独立子句 (Sub-sentence) 。考虑到自动句法分析的需求,我们的句法结构标注工作,将以独立子句为处理单元。这些独立子句被看作是与上下文无关的独立单位,因此,如果独立子句中存在着省略成分的话,省略成分不需要标出补足。本文以下部分中除非特殊标出,所有提到句子都是指独立子句。

在短语标注过程中,每一个识别出的短语,将使用 '[‘ 作为短语的左边界,而使用 ']' 作为短语的右边界。在‘ ] '之后,将根据 [ 短语 ]SS-FF 的格式给出标示。其中 SS 是一个必需的句法标志,如 NP 名词短语, VP 动词短语等。 FF 是一个可选的内部结构或者语法功能标志。如 BL 并列关系, SB 主谓关系等。例如 [荣誉/n 与/c 尊严/n]NP-BL (honor and dignity).

短语句法信息标注

参考Penn Chinese Treebank 和Sinica Treebank,短语句法信息标注规定为:

NP — Noun phrase. 名词性短语以名词为核心词,通常短语中最后一个名词为名词性短语的核心词 . e.g. [市场/n 经济/n#]NP (market economy)

TP — Time phrase. 时间短语包含有连续的时间词,通常用来描述时间信息 e.g. [早上/t 8时/t]TP (8:00in the morning)

FP — Position phrase. 时间短语包含有连续的时间词,通常用来描述时间信息 . e.g. [内蒙古/ns 东北部/f#]FP (North-east of Inner Mongolia)

VP — Verb phrase. 动词短语通常以谓词为核心词,并不包含主语 . e.g. [顺利/a 启动/v#]VP-ZZ (successfully start), and [分析/v# 问题/n]VP-SBI (analyze the problem)

AP — Adjective phrase. 形容词短语以形容词为核心词,同时整个短语在句子中,仍然为形容词的功能。 e.g. [公正/a 合理/a#]AP (fair and reasonable)

DP — Adverb phrase. 副词短语以副词为核心词,同时整个短语在句子中,仍然为副词的功能。 e.g. [已/d 不再/d#]DP (no longer)

PP — Preposition phrase. 介词短语以介词为开始标志。 e.g. [在/p 贵州/ns 农村/n]PP (In the countryside of GuizhouProvince)

QP — Quantifier phrase. 量词短语由数词和量词组成,并以量词为核心词。通常量词短语用于名词短语或者动词短语的修饰语 . e.g. [数千/m 名/q#]QP 士兵/n (several thousand soldiers)

SV — Subject-verb phrase. 主谓短语通常包含有一个名词成分作为主语一个动词成分作为谓语 . e.g. [规模/n 收益/n]NP 递增/v]SV (scale income increases)

IC — 句内子句 [如何/r 多/a 方面/n 开辟/v 就业/vn 渠道/n]IC 是/v (how to provide more job opportunities is)

短语语义信息标注

短语语义信息的标注是PolyU Treebank所特有的设计。并不是每个短语都需要标注语义信息,而是在人工标注过程中,如果发现短语符合预先规划的语义类别,则进行标注。

语义信息对于很多NLP应用来说都是非常重要的。例如 山东/ns 烟台/ns 市/n烟台/ns 大学/n 都是名词短语,但是前者是一个地名,后者是一个组织机构名。通过标注对应的语义信息 NS和NT,这两个短语的语义信息可以被区分开来。这样的信息对于命名实体识别和分类是非常有帮助的。同时,语义信息的标注可以视为人工语法标注的副产品,因为标注人员在分析句法信息的同时,已经可以发现对应的语义信息了。因此,语义信息的标注消耗是可以承受的。

适用于名词短语的语义标注

NT — 组织机构名. e.g. [烟台/ns 大学/n]NP-NT (YantaiUniversity)

NS — 地名. e.g. [江苏省/ns 铜山县/ns]NP-NS (JiangsuProvince, Tongshan Country)

NR — 人名短语. e.g. [胡/nr 锦涛/nr]NP-NR (Hu Jintao)

NZ — 其他专有名词短语. e.g. [诺贝尔/nr 奖/n]NP-NZ (The Nobel Prize)

BL — 并列关系. 并列关系意味着短语内包含有两个或者更多个并列的元素. e.g. [中国/ns 与/c 南非/ns]NP-BL (Chinaand South Africa)

FZ — 复指关系. 复指关系意味着短语内包含着两个相等的元素 e.g. [[国家/n主席/n]NP [江/nr 泽民/nr]NR]NP-FZ (the president of China, Jiang Zemin)

PZ — 偏正关系. 偏正关系是名词性短语的默认内部结构。名词为核心词,其他词为修饰词 e.g. [美丽/a 的/u 花/n#]NP-PZ (beautiful flower)

FS — 名词复数. e.g. [朋友/j# 们/k]NP-FS (friends)

DE — 的字结构是中文中一种特殊的结构,它以的字为结尾,意味着补语的缺省 e.g. 比/v [原先/d 预料/v 的/u]NP-DE 低/a (lower than originally expected)

SU — 所字结构是中文中的一种特殊结构。典型结构是所 (SUO)+VP+NP. e.g. [所 /u 画 /v 禽鸟 /n#]NP-SU (the birds painted by)

适用于动词短语的语义标注

SBI — 述宾关系意味着动词短语中包含一个谓词和它的对象 e.g. [打/v# 篮球/n]VP-SBI 是/v 我/r 的/u 爱好/n (playing basketball is my hobby)

SBU — 述补关系意味着动词短语的第二个部分是第一个部分的补语. e.g. [医治/v# 无效/v]VP-SBU (ineffectively treat)

ZZ — 状中关系意味着在短语中动词为中心词,其他词是它的修饰词. e.g. [[有效/ad 打击/v#]VP-ZZ 了/u 敌人/n]VP-SBI (effectively strike the enemy)

SD — Serial verb constructions. 连动结构意味着动词短语中包含着多个连续动词,并且通常最后一个动作是最重要的 . e.g. [[审核/v 发放/v]VP-SD 护照/n]VP-SBI (verify and issue the passport)

BA — 把字结构是汉语动词短语中的一种特殊结构,典型模板是把 (BA)+NP1+VP. e.g. [把/p [扶贫/vn 开发/vn 工作/vn]NP-PZ 作为/v#]VP-BA

BEI — 被字结构是汉语动词短语中的一种特殊结构,典型模板是 被(BEI)+NP+VP and NP+被+VP. eg. 商店/n [被/p [责令/v# 停业/vn]VP-SBI]VP-BEI (the shop was ordered to close)

适用于时间短语的语义标注

PO — 时间点信息. e.g. [7月/t 1日/t]TP-PO (July 1)

DU — 时间段信息 A DU indicates a period of time. e.g. [今后/t 3/m年/q]TP-DU (following three years)

适用于介词短语的语义标注

YY — 原因信息. e.g. [因/p 饿/a]PP-YY 死亡/v (dead for hunger)

DX — 对象信息. e.g. [向/p [受灾/vn 地区/n]NP]PP-DX (to the disaster area)

DD — 地点信息. e.g. [在/p 深圳/ns]PP-DD (in Shenzhen)

FM — 方法信息. e.g. [通过/p [股票/n 上市/v]S]PP-FS (Through the stock market)

MD — 目的信息. e.g. [为/p 动武/v]PP-MD [找/v 借口/n]VP-SBI (looking for an excuse for war)

GJ — 工具信息. e.g. [用/p 公车/n]PP-GJ (using public-bus)

SJ — 时间信息 A SJ label indicates that a PP carries time information. e.g. [到/v 目前/t 为止/v]PP-SJ (up to now)

其他语义标注

DL — 动量信息. Eg. [十/m 下/v 江南/ns]VP-DL(visit Jiangnan 10 times)

ML — 名量信息 E.g. [五/m 个/q]QP-ML 苹果/n (five apples)

SL — 时量信息. SL label indicates that a QP carries time information. E.g. [30/m 年/q]QP-SL 里/f (in the 30 years)

短语标注流程

短语标注是浅层分析树库建立过程中的核心工作。在标注过程中,是使用独立子句作为处理单元的。 由于在形态上很多完整的汉语句子,会被“,;。?!:”等标点符号隔开为几个具有完整的句法结构的语言片断,也就是独立子句 (Sub-sentence) 。考虑到自动句法分析的需求,我们的句法结构标注工作,将以独立子句为处理单元。这些独立子句被看作是与上下文无关的独立单位,因此,如果独立子句中存在着省略成分的话,省略成分不需要标出补足。本文以下部分中除非特殊标出,所有提到句子都是指独立子句。

在短语标注过程中,每一个识别出的短语,将使用 '[‘ 作为短语的左边界,而使用 ']' 作为短语的右边界。在‘ ] '之后,将根据 [ 短语 ]SS-FF 的格式给出标示。其中 SS 是一个必需的句法标志,如 NP 名词短语, VP 动词短语等。 FF 是一个可选的内部结构或者语法功能标志。如 BL 并列关系, SB 主谓关系等。总计有 21 个 SS 标示和 20 个 FF 标示包含在标注规范中。

对于一个子句,

第一步骤 标示句子中的最大短语

最大短语是句子的主要句法结构,通常担负句子的主语、谓语、或者宾语。它是不能够被其他任何短语所包含的并且包含至少一个基本短语,担当一个句法功能的最长短语。由于它是标注的第一步骤,因此,在这个阶段不存在嵌套问题。 在这个过程中,如果主,谓,宾对应的语块由单个词语组成,也就是不包含短语的情况时,不需要标注此语块。最大短语构成了一个句子的主干。同时,最大短语的识别过程也是短语标注过程中最困难的一步。

第二步骤 标示最大短语中包含的基本短语

基本短语是结构简单,结合紧密,不包含嵌套结构,由连续词语构成的短语。在词组本位语法体系当中, base-phrase 被视为句法分析的基本单元 。通常,一个 base-phrase 是由一个实词来引导,作为核心词

在这个过程中,对基本短语的识别被限制在最大短语内部,也就是说,基本短语必须存在于最大短语内部,或者和最大短语重合。由于基本短语是语言结构中最稳定,最有规律,最能反映词语关系的单元。存在于基本短语中的词语,本身就反映出相对稳定的内在联系规律。基本短语的分析是非常重要的信息。

在识别基本短语的过程中,遵循 bottom-up 策略,以找到最基本的短语。

第三步骤 标示最大短语中包含的嵌套短语

在确定了句子中的基本短语以后,使用这些基本短语作为出发点,在最大短语范围内可以进一步识别嵌套的短语结构。

由于不计划进行完整句法标注,因此,对短语嵌套的层次进行了限制,考虑到应用的寻求,在标注过程中,将嵌套层次限制在最多 3 层。也就是说,标注后建立的浅层句法分析树的深度不超过 3 层。从而降低了结构复杂度。对于超过了 3 层的嵌套,则放弃。

第四步骤 标示短语中心词

 

<<总体概况和设计原则         树库标注的实现>>

 

Last modified on Thu, 11 May 2006 11:54:22 +0800
THE HONG KONG POLYTECHNIC UNIVERSITY