自然语言处理60多年的发展过程,基本上可以分成两个阶段。早期的20多年,是科学家们走弯路的阶段。全世界的科学家对计算机处理自然语言的认识都被自己局限在人类学习语言的方式上,即用电脑模拟人脑,这20多年的成果几乎为零。直到20世纪70年代,一些自然语言处理的先驱重新认识这个问题,找到了基于数学模型和统计的方法,自然语言处理进入第二个阶段。
在早期,全世界对自然语言处理的研究都陷入了一个误区,他们认为要让机器完成翻译或者语音识别这种只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机有类似我们人类这样的智能。在人工智能领域,包括自然语言处理领域,后来把这样的方法称为“鸟飞派”,也就是看看鸟是怎样飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。事实上怀特兄弟发明飞机靠的是空气动力学而不是仿生学。
今天机器翻译和语音识别已经做得不错,并且有上亿人使用过,但是大部分这个领域之外的人依然错误地以为这两个应用是靠计算机理解的自然语言才完成的。事实上他们全部靠的是数学,更准确的说是靠统计。