问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

机器翻译的基于统计

发布网友 发布时间:2022-04-23 23:56

我来回答

1个回答

热心网友 时间:2023-10-14 10:38

一般的基于语料库(Corpus-Based)的机译系统就是基于统计的机器翻译,因为这一领域异军突起,统计就是统计平行语料,由此衍生出许多不同的统计模型。
不同于基于规则的机译系统由词典和语法规则库构成翻译知识库,基于语料库的机译系统是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。基于语料库的方法可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。 基于统计的机器翻译 基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。
实际上, 用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想,1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法,只是由于乔姆斯基(N.Chomsky) 等人对计的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。
另外,限于当时的计算机速度,统计的价值也无从谈起。计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。
统计机器翻译方法的数学模型是由国际商业机器公司 (IBM) 的研究人员提出的。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型,称为 IBM 模型 1 到 IBM 模型 5。这五种模型均源自信源-信道模型,采用最大似然法估计参数。由于当时(1993年)计算条件的*,无法实现基于大规模数据训练。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,该模型被用来替代IBM Model 2。在这时的研究中,统计模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。
在此文发表后6年,一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化,加快训练速度。特别是IBM Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练,已有GIZA++的若干并行化版本存在。
基于词的统计机器翻译的性能却由于建模单元过小而受到*。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高,在此后数年,该方法的性能远远领先于其他方法。一年后Och又修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。
另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现,为翻译结果提供了自动评价的途径,从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。
Moses 是维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。
Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google 采用的技术是先进的,但它还是经常闹出各种“翻译笑话” 。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此通用领域的机器翻译系统很少以统计方法为主。 基于实例的机器翻译 与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。
基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。
这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
为什么我的眉毛中部有几根会往上翘有什么说法吗? 儿童补铁的药哪种效果最好? 儿童补铁口服液哪个牌子好 台湾的共享单车有人用过吗,想知道他们用的哪款车坐垫用的是哪家的,和... city bike和roadbike区别 报春花怎样扦播 电脑连接上无线网络不能上qq为什么电脑连上无线网却只能登qq 能上网但是不能上qq,是什么原因? 金山网盾、金山网镖、金山毒霸、金山清理专家四个软件哪个防护好一点... 上网的时候,金山网镖、金山网盾和金山毒霸这三个程序需要都开着吗? gan图像质量评价 中译英,请高手速度哦,文章有点长,能翻译多少是多少吧,翻译软件的不要。。翻译完身上财富全部奉上,, 请问因子分析法在企业绩效评价中能否应用 计算机学习的分类 缝洞型碳酸盐岩储集体特征及预测——以哈萨克斯坦A油田Pz段为例 建设项目环境影响评价的工程背景主要涉及内容 如何理解熵的概念?其统计物理意义又为何?热力学第三定律能说明什么问题? 秦学志的著作论文 身体素质评价常用的方法 计算一个时点一个地区的指标权重,那种方法好?熵值法还是主成分分析法? 模糊三角数得到的属性评价值怎么用熵求权重 三角模糊数得到的属性评价值 怎么用熵求权重 陈黎明的科研项目 熵权法的在不同领域中“熵”也有不同意义 熵值法计算综合得分最高只能是1吗 评价指标权重的确定 基于信息熵的多属性决策方法 模型怎么样 蝉、花苞、娇媚、棱镜、粗犷、睫毛它们的拼音 表示花儿颜色多和娇美的成语 特别妖媚的那种紫色的花,求花名和花语! 影响熵值大小的规律有哪些? 遥感影像融合信息熵,梯度,清晰度用什么软件算最好?有没有简单又快的方法?主要是问ENVI5.3能找出来吗? 把照片变成图画软件下载 eminem在当今说唱界的地位! OPPOa11手机怎么插卡? eminem在说唱界的地位 Eminem 在说唱界什么地位 阿姆在欧美乐坛地位如何? eminem在现在的美国乐坛的地位如何? Eminem和2pac谁才是说唱皇帝? eminem在说唱界的地位 客观点的回答 阿姆在说唱界属于什么地位,比之2pac,snoop dogg,dr.dre,jayz如何 EMINEM在说唱界的地位有多高? ? 为什么说阿姆eminem是神 Jay-z和Eminem,谁在美国影响力更大? jay-z和eminem在美国音乐界谁的地位更高 EMINEM和JAY-Z在米国音乐界的地位分别都是怎么样? 为什么阿姆那么尊敬Dr.Dre? 把内存中的数据保存到硬盘上的操作称为? 如何把相机内存卡里的照片直接复制到移动硬盘上?