上线 12 年,Google 意译现在支持 100 多种语言,覆盖了全球 99% 的网民。这其中甚至包含信德语(巴基斯坦和印度)、科萨语(南非)等极少人应用的语种

但最近 Reddit 上有网民发现了一些奇特的现象——在某些语种下,一些特定的词组会被 Google 意译成看似乱码的宗教话语。

将语言设置成从毛利语意译成英语后,输入 19 遍 “dog” 这个词,Google 意译就会将这段话意译成“世界末日时钟在 12 点 03 分我们正在经历世界上的人物和戏剧性的发展,这表明我们越来越近接近末日和耶稣的回归”

 

听上去像是悬疑惊悚片里面的台词,这只是 Reddit 上用户挖掘出来许多离奇的意译之一。

例如用 Google 意译从索马里语意译成英语,输入不同数量的 “ag” ,会得出不同的意译结果,包含将 “ag” 意译成 the sons of Gershon (Gershon 的儿子),the name of the LORD (耶稣的名字)。

 

 
 

对于出现这样现象的原因,Reddit 和推特上的网友玩笑地称幽灵和恶魔在 Google 提供意译服务,或者可能是由不满的 Google 员工恶意变化。但也有一些认真的讨论,囊括认为是有些人滥用“建议编辑”按钮,这个功能可以让任何用户帮助给出意译情节的建议。

哈佛大学助理教授,研究自然语言和计算机意译的 Andrew Rush 则不认为会是有人恶意捣乱,因为 Google 意译内置的过滤器会捕捉和屏蔽这类型的修改。

他表示,奇特意译出现更有可能的原因和 2 年前 Google 意译技术的改变有关, Google 意译目前采用了一种被称为“神经机器意译”的技术。

意译软件的技术最早是利用词典和语法变化意译,被称为基于规则的机械意译(RBMT),利用上就是机具把每个单词查好,按简单的语法规则拼起来。随着统计学的发展,统计模型开始被应用在机械意译上,通过对于两种不同语言的资料库进行统计分析来变化意译结果。技术称为统计机具意译(SMT),也是 1980 年代到 2000 年代之间意译软件上最常用的方法。

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机具意译的编码器-解码器结构。他们的研究成果可以说是神经机器意译(NMT)的诞生。神经机器意译是一种采取深度学习神经网络获取自然语言之间的映射关系的方法。三年后,Google 发布了自家的神经机器意译系统 GNMT,也是采用编码器-解码器结构,但解决了 NMT 系统意译计算成本高,难以处理生僻词等一些问题。

所谓 Google 的 GNMT 神经机器意译,其实就是将要意译的句子中的词汇逐个编码,形成一个列表,其中每个单元都包含了之前被读取到单词的含义,然后采用磨练后的神经网络作为解码器,将单元逐个意译成目标语言。

以汉语“知识就是力量”意译成英文为例,神经机器意译先按 “知”——“知识”——“知识就”等顺序对原句进行编码,一旦读取完整个句子,解码器就开始工作,逐个按列表单元变化英语句子中的一个词,最后集成成一句话。

 

GNMT 还加入了“注意(Attention)”技术,为了在每一步都变化意译正确的词,解码器会重点注意与变化英语词最相关的汉语矢量。在“知识就是力量”这句话中,知识和力量就是值得注意的单词。

而想要提高编码器和解码器的能力,就需要大量的磨练。系统需要一种语言的大量文本来操练另一种语言的相应意译能力,最终确保可以创建出两种语言之间对应的模型,这也是问题所在。

回到 Google 意译会出现宗教话语的问题。研究自然语言和计算机意译的 Rush 解释称,“当你让 GNMT 学会一个新语言的意译时,它会受到练习,并竭尽所能去生产一些看起来像人类语言的东西。然而,如果它面对一些特殊的情节,只能展现一些和输入情节完全没有关系,但仍然流利通顺的东西。”

BBN Technologies 的高级科学家肖恩·科尔巴斯(Sean Colbath)从事机械意译工作,他同意古怪的输出可能是由于 Google 意译的算法在混乱中寻找秩序。

他还指出,产生最离奇结果的语言——索马里语,夏威夷语和毛利语。这些语言比英语或中文等更广泛采用的语言具有更小的意译文本。因此他说,Google 可能会应用像圣经这样被意译成多种语言的宗教文本来练习这些小语种的模型,从而解释了为什么会产生宗教情节的原因。

截止 2002 年,已经有 392 种语言的圣经全译本(即全本旧约、新约都有意译的版本)。

Rush 也同意如果 Google 采取圣经来磨练意译模型,是可以解释一些古怪的输出。事实上,索马里语的一些古怪意译的确类似于旧约中的特定段落。囊括《民数记》在内的几节经文讨论了 sons of Gershon,《出埃及记》里也有对应的情节。

Google 发言人伯尔拒绝透露意译的培训材料是否囊括宗教文本,一些已经被发现的奇特意译也在被网友发现后进行了修正。

有趣的是,Google 意译似乎也知道自己古怪的地方。

 

在利用索马里语意译:“ why are the translations so weird(为什么意译这么古怪)”,Google 意译给出了一个有趣的回答,“It is a great way to make it so much better(这是一个让它变得更好的好方法)”

友情链接: 城市分站