林杏光委员:面向计算机的语言研究的议案  

    面向计算机语言研究的特点

    面向计算机的语言研究有高级阶段和初级阶段之分。高级阶段的标准,就是要使语言研究的成果规则化、形式化、算法化、程序化。只有规则化才能形式化;只有形式化才能算法化;只有算法化才能程序化;只有程序化才能在计算机上实现。初级阶段的标准,就是只要求语言研究瞄准计算机的需要,计算机需要什么就研究什么。如果一时还不能进行高级阶段的研究,可以先从先从初级阶段做起。不管是高级阶段还是初级阶段,都有个共同的特点,那就是所推出的研究成果应该是第二层次的大面积的语言工程研究成果。语言和语言研究可分为三个层次:客观的语言材料为第一层次;用一定的理论经和方法对客观的语言材料为第一层次;用一定的理论和方法对客观的语言材料进行初步的整理为第二层次;将第二层欠上升到理论的高度以写成论文或论著为第三层次。面向计算机的语言研究,之所以要具有第二层关键作用的大面积的语言工程研究的特点,是因为这样的研究成果比较符合计算机处理语言的需要。大面积的语言工程研究是一种十分繁重辛苦的工作,需要毅力,需要十分细心塌实的作风。这种研究成果对计算机和对人都有用,叫人机通用。

    21世纪面向计算机语言研究的方向

    正确的方向取决于对形势的正确分析。近几百年来出现了三次人类大发展机遇:第一次是18世纪末到19世纪初的蒸汽革命,第二次是19世纪末至20世纪初的电气革命,第三次是20世纪末的信息时代初级阶段,计算机进入千家万户,因特网普及全球。新的世纪开始的今天,信息时代从初级阶段向高给阶段发展,要求形式信息处理向内容信息处理过渡,这是第四次人类大发展机遇。要抓住第四次人类大发展机遇的关键是突破计算机理解语言这个半个世纪没有突破的世界重大科学难题。在这个科学难题上,我认为中国没有落后,甚至还具备诸多后来居上的有利条件。在刚刚过去的20世纪,中国取得了汉字处理的突破。中国工程院组织93位工程院院士和2位科学院院士投票评选20世纪成就最大的25项科研项目,结果“两弹一星”荣获第一名,“汉字信息处理与印刷革命”仅少一票荣获第二名。目前,中文信息处理已进入语句处理的攻关阶段,出现了三个流派:以传统的计算语言学为基本理论的流派、HNC(概念层次网络)理论、基于内涵模型论的语义分析。这三个流派正团结奋进,为中国突破计算机理解语言这一难题作出各自的贡献。根据以上的分析,我认为21世纪面向计算机语言研究的方向,应该是瞄准计算机理解语言这一世界科学难题,为计算机理解语言而研究语言。什么叫“为计算机理解语言研究语言”呢?

    计算机理解语言,是人工智能的一个重要分支。“理解”这个概念很难定义,在不同的学科有不同的特殊认识,就是同在计算机理解语言这个学科领域内,也有不同的定位。

    有人要求计算机理解“下雨啦”,“花开堪折值需折,莫待无花空折枝”,这两句话是怎么回事呢?据说有一对恋人在女方家里聚会,分手的时候,天下起雨来,女的说:“下雨啦!”男的说:“我有雨伞。”说着打起雨伞走了,女的非常生气。女的为什么生气呢?因为男的没有理解她说“下雨啦”的意思,她的意思是下雨就别走了,住在我家里吧。传说有位女大学生在一位男大学生的书里夹了一张纸条“花开堪折值需折,莫待无花空折枝”。《唐诗三百首》里有一首诗:“劝群莫惜金缕衣,劝君惜取少年时;花开堪折值需折,莫待无花空折枝。”在书里夹上这首诗的后两句是什么意思呢?男大学生琢磨了半天,以为女大学生在暗示他向她求爱,机不可失。女大不生的意思是不是这样,还很难说。像以上两种话语,人都很难理解却要求计算机去理解,这是不恰当的。

    有人干脆把计算机理解语言的“理解”定位于像人脑一样去理解语言,这当然就更不恰当了。因为计算机不可能像人脑一样去理解语言。我们将计算机理解书面语言的“理解”定位于三点:

    1. 在具体的语句中,对多义词的义项有正确的选择能力。如“打”有25个义项,“她正在打毛衣”的“打”是“编织”的意思。“他到商店去打酱油”的“打”是“买”的意思。听说有一位外国朋友问一个外出回来的中国同志:“您到哪里去了?”中国同志回答:“我打酱油去了。”外国朋友非常惊异地问:“你为什么打酱油?它有什么罪?您为什么打它!”中国同志告诉他,“打”是“买”的意思,外国朋友表示明白。一天,这位外国朋友去买豆腐,走到豆腐跟前说:“我要打豆腐!”卖豆腐的说:“您可别打,一打就成豆腐渣了。”旁边的中国同志告诉他:“您应该说捡豆腐,‘捡’就是‘买’。”外国朋友又表示明白。他回国前给同房间的中国同志送金戒指,中国同志不好意思接受,外国朋友说:“您收下吧,是我捡来的。”这一说中国同志更不敢接受了。这位外国朋友的问题出在对多义词的义项选择错了。

    2.在具体的语句中,对词或短语有正确的切分能力。如“乒乓球拍|卖完了”,也可以说“乒乓球|拍卖完了”。又如“美国|会反对这个建议案”,也可以说“美国会|反对这个建议案”。计算机应根据具体的上下文作出正确的切分。

    3.在具体的语句中,对代词所代和省略的内容有正确的确定能力。如“前面来了一个人,他秃脑袋,()剃得挺光亮”。计算机应该知道这句话中的“他”是代前面来的这个人,剃得挺光亮的前面省掉了“脑袋”。

    我认为以上的三点定位是恰当的。因为这样的定位目前计算机的硬件和软件水平有可能实现。另外,这样的定义一旦实现,将对半个世纪没有攻克的计算机理解语言这一世界重大科学难题产生重大的突破。

    计算机必须通过词语和语句的网络形式才能具有以上的三种理解能力,因此要让计算机理解语言,就要为计算机创立网络形式的词语和语句的理解模式。用网络形式的词语理解模式来研究词汇、用网络形式的语句理解模式来研究句子,并推出第二层次的大面积的语言,也就是21世纪面向计算机语言研究的方向。

     中国网 2002年3月14日









版权所有 中国互联网新闻中心 电子邮件: webmaster @ china.org.cn 电话: 86-10-68326688