规则和统计(上)

xiaoxiao2021-02-28  86

    在20世纪60年代,科学家对nlp的普遍认识是分析语义和获取语义。 这是因为受到了传统语言研究的影响—学习语言要学习语法规则、词性和构词。这些规则是人类学习语言的好工具,而这些规则又很容易用计算机描述,所以坚定了大家对基于规则的nlp的信心。看一个例子:徐志摩喜欢林徽因。这个句子可以分为主语、动词短语和句号三部分,然后对每个部分进一步分析。

    科学家们原本以为随着nl语法概括得越来越全面,同时计算机计算能力的提高,这种方法可以逐步解决nl理解的问题。但是很快遇到了麻烦,要想通过文法规则覆盖哪怕20%的真实语句,文法规则的数量也至少是几万条。语言学家几乎已经来不及写了,而且这些规则到后来甚至会出现矛盾,为了解决矛盾,还要说明各个规则的使用环境。nlp在演变过程中,产生了词义和上下文相关的特性。因此,它的文法是比较复杂的上下文有关文法。图灵奖得主高德纳提出了用计算复杂度来衡量算法的耗时。对于上下文无关文法,算法的复杂度基本上是语句长度的二次方,而对于上下文有关文法,计算复杂度基本上语句长度的六次方。也就是说,后者计算机的计算量是前者指数倍,而且随着语句增长,二者计算差异会以更快的速度扩大。即便今天用i7四核处理器,分析二三十个词的句子也要一两分钟。所以,在20世纪70年代,即便是IBM这样的大公司,也不可能采用规则的方法分析一些真实的语句。

    在上世纪70年代,基于规则的句法分析就走到了尽头。1966年,著名人工智能专家明斯基举了一个简单的反例,说明计算机处理语言的难处,“The pen is in the box.”和“The box is in the pen.”中两个pen的区别,第一句很好理解,第二句会让人困惑,因为pen还有围栏的意思。这里pen是指钢笔还是围栏,通过上下文已经不能解决,需要常识。可以说,利用计算机处理自然语言的努力在70年代初之前是相当失败的。

    70年后统计语言学的出现使得nlp重获新生,并取得今天的非凡成就。推动这个技术路线改变的关键人物是贾里尼克(推荐大家百度一下他的事迹)和他领导的IBM华生实验室。最初,他们也没想解决nlp的各种问题,只是希望解决语言识别的问题。采用基于统计的方法,IBM将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词。IBM华生实验室在nlp界引发了巨大震动。但是并非所有学者都认同,基于规则还是基于统计的争论还是持续了15年左右,直到90年代初。

    15年,对于一个学者来讲是一个非常长的时间,如果一个人从博士开始就选错了方向并且坚持错误,到15年后才发现,基本上一辈子可能就一事无成了。这场争议之所以持续了15年,是因为一个新的研究方法要成熟需要很多年。当时,基于统计的方法的核心模型是通信系统+隐马尔可夫模型

转载请注明原文地址: https://www.6miu.com/read-45272.html

最新回复(0)