• 精选
  • 会员

里程碑一:1985复杂特征集

2018年11月15日  来源:量子位 作者: 提供人:t.call.p@126.c......

2.1 里程碑一:1985复杂特征集

复杂特征集(complex feature set)又叫做多重属性(multiple features)描写。语言学里,这种描写方法最早出现在语音学中。美国计算语言学家Martin Kay于1985年在“功能合一语法”(FunctionalUnification Grammar,简称FUG)新语法理论中,提出“复杂特征集”(complex feature set)概念。后来被Chomsky学派采用来扩展PSG的描写能力。

??2????????oNLP??¥èˉ?é??????????¥èˉ??????????????±?????¨?????ˉ??????????

美国计算语言学家Martin Kay

现在在语言学界、计算语言学界,语法系统在词汇层的描写中常采用复杂特征集,利用这些属性来强化句法规则的约束力。一个复杂特征集F包含任意多个特征名fi和特征值vi对。其形式如:

F = {…, fi=vi, …}, i=1,…,n

特征值vi既可以是一个简单的数字或符号,也可以是另外一个复杂特征集。这种递归式的定义使复杂特征集获得了强大的表现能力。举例来说,北京大学俞士汶开发的《现代汉语语法信息词典》[10],对一个动词定义了约40项属性描写,对一个名词定义了约27项属性描写。

一条含有词汇和短语属性约束的句法规则具有如下的一般形式:

: <属性约束>

: <属性传递>

一般来说,PSG规则包括右部(条件:符号序列的匹配模式)和左部(动作:短语归并结果)。词语的“属性约束”直接来自系统的词库,而短语的“属性约束”则是在自底向上的短语归并过程中从其构成成分的中心语(head)那里继承过来的。在Chomsky的理论中这叫做X-bar理论

X-bar代表某个词类X所构成的、仍具有该词类属性的一个成分。如果X=N,就是一个具有名词特性的N-bar。当一条PSG规则的右部匹配成功,且“属性约束”部分得到满足,这条规则才能被执行。此时,规则左部所命名的的短语被生成,该短语的复杂特征集通过“属性传递”部分动态生成。

80年代末、90年代初学术界提出了一系列新的语法,如广义短语结构语法(GPSG)、中心语驱动的短语结构语法(HPSG)、词汇功能语法(LFG)等等。这些形式语法其实都是在词汇和短语的复杂特征集描写背景下产生的。合一(unification)算法则是针对复杂特征集的运算而提出来的。“合一”是实现属性匹配和赋值的一种算法,所以上述这些新语法又统称为“基于合一的语法”。

自然语言处理 / NLP

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000