机器翻译:人工智能领域的关键核心技术

文/张立

近年来,机器翻译(英文Machine Translation,简称MT)取得了长足的进步,并获得一些可喜的成果。作为人工智能领域的关键核心技术,MT普遍受到人们的关注和专家的研究。然而,目前MT存在译文质量整体不高、译后修改工作量较大等问题;这些问题有待解决。

MT技术的发展一直与计算机科学、语言学、心理学、控制论、信息论等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计翻译;随着计算机算力的提升和多语言信息的爆发式增长,MT技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。

目前主流的MT技术是神经网络翻译(NMT);它是最近几年才提出来的一种翻译方法。相比于传统的翻译方法而言,NMT能够训练一张能够从一个序列映射到另一个序列的神经网络,输出的可以是一个变长的序列,这在翻译方面能够获得比较好的表现。可以说,NMT技术已经成为当下研究的关键和热点。

目前市场上MT技术相对成熟的是谷歌翻译和微软翻译;它们原来背后的技术即为基于统计的翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。而现在谷歌和微软采用神经网络和深度学习的原理和框架,从而使MT技术有了很大的进步。

然而,无论是哪种翻译方法,目前影响MT发展的最大因素在于译文质量。就MT已有的成就来看,译文质量离理想目标(达到高级译员的翻译水准)仍相差甚远。众所周知,人工翻译(简称“人译”)的过程是人工译者集理解、分析、选择及再创造为一体的综合操作,是大脑系统思维活动的过程。

MT的译文质量要达到人译的水准,就必须解开大脑处理语言信息之谜。其实早在20世纪90年代初,中国科学家及未来学家周海中教授就指出:在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,MT要想达到“信、达、雅”的程度是不可能的。他的这一预言今天已经基本成真,很可能成为今后MT发展的现实。

近年实施的欧洲大脑计划、美国大脑计划、中国大脑计划、日本大脑计划等都旨在利用计算机模拟人类大脑, 其核心内容是神经信息学。这一新兴前沿学科的研究成果将有助于人们了解大脑是如何进行自然语言处理的,并有望为人工智能领域,尤其是MT技术的进展铺平道路。

MT要达到人译的程度还有很长很难的路要走,要解决这一人工智能领域的关键核心技术还有待未来科技的发展,尤其是大脑科学的重大突破。目前人们只能将MT与人译结合起来,相辅相成;这既能节省翻译的时间和成本,又能翻译出高质量的译文。

文/张立博士(作者单位:德国马普学会脑研究所)