汉语语言学为中文信息处理准备了哪些知识,这些知识是否全面,充分和适用
发布网友
发布时间:2022-04-29 00:49
我来回答
共1个回答
热心网友
时间:2023-09-29 00:09
一 信息处理的必然前景
中文信息处理,就是利用计算机对汉语信息(包括书面的和口头的)进行处理。既然是凭借计算机对信息进行处理,当然应该是自动化的。例如,成篇的文章或整本的书输入计算机,对其中所需要的信息进行统计;自动分类和搜索、过滤、摘要;外文与汉语的对译;字词典自动查询、辅助编辑;自动校对;书面和口语的互相转换;聋哑、盲人用的计算机;等等。至于词典、教科书、多媒体和语文教学等领域从中得益则不言而喻。
中文信息的自动化处理,意义之重大是无须多说的。首先是节省时间。但是这还在其次。更为重要的是,这是人们应付未来信息社会的必需手段。现在在世界范围内,信息最之大是以往任何时候无法比拟的,以至于对任何人来说都好像是一叶扁舟飘荡在无边的大海里,无法比较全面地掌握自己所需要的信息,当然就更淡不到对这些信息按照需要进一步处理。
信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关重要。可以这样说,中文信息自动化处理每提高一步,给我国的科学技术(包括国家的信息化)、文化教育、经济建设、*所带来的效益,将是无法用金钱的数额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要,后果也是严重的。
二 中文信息处理技术发展现状
1.字处理与语言处理
到目前为止,中文信息处理基本上还停留在“字处理”阶段,也就是说计算机对汉语的“认知”是一个字一个字地进行。最明显的标志就是计算机键盘输入是一个字一个字地敲,一个字一个字的显示。即使应用软件准备了“联想”功能,但是其原理仍是把词(多音词)、短语当成“字”来处理的。如果我们说得“宽宏”一些,最多可以说现在是处在“字和词处理之间”阶段。
中文信息处理,只有进入到语言处理阶段,才能真正实现自动化。现在市面上有些信息产品似乎越过了“字词处理”阶段,给人以假象,使人误认为计算机对中文信息的处理已经“自动化”了。例如中文扫描仪,可以成篇地把文件输入到计算机里。其实,扫描仪是把整页纸当成一个图像输进去的;输入后,经过OCR的处理,图像转化了可以用键盘处理的文字文件,这时则仍是“字处理”。再如,现在有些语音输入产品(像IBM语音板),是基于在一定量的语料中对词汇进行统计,依据词出现的概率而研制的。其处理的基本单位也是“字词”。又如多种机器翻译产品,对汉语研究的基本思路和水平与语音输入基本上是一样的。
二十年前,我国计算机专家和汉语汉字专家为能在计算机上显示汉字,曾经付出了极大的心血,完成了历史性的突破。自那以后,中文信息处理技术虽然在有些方面有所进步,但是至今还没有跨上“语言处理”这个台阶。我们在“字处理”阶段停留的时间太久了。
在全世界科学技术高速发展的今天,中文信息处理自动化水平的提高,将决定着信息产业发展的前景,也意味着巨大的经济利益。因此,一些技术和经济发达的国家都投入了大量资金,在其本土或在中国建立研究基地,或以低廉的价格购买中国学者的研究成果,或径直购买其劳力,来进行中文信息处理的研究。中国作为汉语的故乡,能不能成为未来中文信息处理技术的发展的中坚?以汉语为母语的中国学者,能不能掌握中文信息处理的核心技术?这个问题早已尖锐地摆在我们面前。我们必须尽快地给以明确的回答。
由于机器翻译需要有关现代汉语的全部知识,而这些知识一旦为计算机所“习得”,对中文信息的处理就可以达到相当程度的自动化,因此现在无论是国内外中文信息产业还是研究信息处理的专家,都把汉/外机器翻译定为攻克的目标。