微信翻译开蔡徐坤玩笑,AI翻译为何总是“翻车”?
编者按:本文来自微信公众号“AI前线”(ID:ai-front),AI前线团队撰写,36氪授权发布。
昨天,有人发现微信翻译功能存在bug。翻译的质量让人哭笑不得。例如,流量明星的名字被翻译成“白痴”等不相关的词语。对此,微信团队回应称,微信翻译引擎存在误译问题,目前正在修复。经过AI前线测试,截至发稿,微信翻译功能尚未恢复正常。
昨天,微信翻译出现了故障,导致了很多荒唐的翻译结果。比如明星的名字被翻译成各种不相干的词语,蔡徐坤被翻译成“白痴”,实在令人尴尬。
相比之下,谷歌翻译出来的同样四个句子的效果虽然一言难尽,但基本的句子结构还是有根有据的:
但粉丝们决定不这么做,直接把这个话题上了微博热搜榜。截至发稿,话题“微信翻译认真吗?”至今仍高居微博热搜榜,热度不减。
网友评论区的焦点也有些偏离中心,变成了大规模的“打黑”场面。大批粉丝蜂拥而至,表达想要“搬走”偶像的愿望,而网友们只是看热闹,并不认为这有什么大不了的。当然,也有少数人没有偏离主题,专注于翻译本身。有的对机器翻译水平表示担忧,有的为程序员小哥加油~
微信回应:翻译引擎翻译错误
事件发生后,微信团队迅速做出回应,称微信翻译引擎误译了一些未经训练的非正式英语单词,导致部分句子的翻译出现问题。目前正在紧急抢修中。
经过AI前线测试,正常句型和单词都可以正常翻译。然而,当遇到不熟悉的单词时,微信翻译干脆“出击”。我不知道这是否仍然是一个故障,或者这是否是一个临时解决方案。 ?
新的神经网络翻译引擎
看完兴奋,带着严谨的态度,我们来看看这里提到的微信翻译引擎。此前有报道称,微信的英汉翻译功能由有道实现,其他语言则由微软负责。据微信介绍,目前微信聊天对话和朋友圈的英汉、汉英翻译已被其自主研发的新型神经网络翻译引擎所取代。但神经网络的具体信息尚不清楚。 AI前线只找到了有关它的零碎信息。
据一位自称是微信翻译引擎开发团队成员的知乎用户透露,微信翻译功能是由不到10人的小团队开发的,但上线时却非常低调,很多人甚至不知道这个功能的存在。
刚推出时,工程师承认该产品有一定的局限性,很多翻译并不完美。
在“如何评价微信翻译功能”这个话题下,大部分评论对微信翻译功能都不是很友好,尤其是涉及到名字翻译的时候。微信还会给你一个英文名字...
当然,也有人对微信的翻译功能表示支持,并真诚地表示希望微信团队能够改进。甚至有人认为微信的翻译水平比百度、有道还要高。
虽然我们无从得知微信所使用的机器翻译引擎的具体信息,但是我们可以从机器学习翻译引擎的基本工作原理了解到微信为什么会误译一些未经训练的非正式英语单词,从而一些句子的翻译有问题。
机器翻译的原理可以看下图:
翻译机是一个黑盒子,里面有问号。其功能是将一个语言序列(如以years为单位的has)转换为目标语言序列(如La sest ces)。其中,翻译机在正式工作之前可以利用现有的语料库()进行学习和训练。
所谓神经网络机器翻译就是利用神经网络来实现上述的黑盒翻译机。其架构如下图所示:
与之前不同的是,上图中的黑匣子被替换为神经网络。神经网络中存在大量的链接权重,这些权重是需要通过数据进行训练和学习的参数。训练有素的神经网络可以将输入的源语言转换为输出的目标语言。 (来源:知乎ID:人工智能学习笔记)
那么,翻译机如何编写代码让计算机翻译人类语言呢?最简单的方法是将句子中的每个单词替换为翻译的目标语言单词。以下是西班牙语-英语翻译的示例。只需逐字替换即可获得完整的翻译句子。但由于上下文的原因,翻译结果并不完美。
为了解决这个问题,机器翻译系统使用不同的方法,通过分析大量文本来分配文本中的规则来改善结果。也就是教给计算机语法规则,然后让它根据规则翻译句子。
不幸的是,事情并没有那么简单。那些努力学习外语的人一定知道,规则总是有很多例外的。当我们试图描述一个程序的所有这些规则及其特殊情况以及特殊情况的特殊情况时,翻译的质量就无法得到保证。
深度神经网络可以在非常复杂的任务(语音/视觉对象识别)中取得优异的结果,但尽管它们具有灵活性,但它们只能用于输入和目标具有固定维度的任务。
在这个过程中,培训的重要性不言而喻。训练数据的多样性、完整性、数量、质量、时间等维度都会对系统的最终结果产生重要影响。
微信翻译引擎翻译错误。据官方回应,这是因为原文中出现了未经训练的非正式英语单词。也就是说,引擎系统“看到”了以前从未见过的训练数据,从而影响翻译是否准确,也不难理解。
翻滚不止一次
事实上,腾讯在翻译方面的失败不止一次。去年博鳌论坛期间,腾讯的翻译在会议上出现错误,AI前线对此进行了报道:当时翻译错误大部分是常见的特殊术语,比如“一带一路”、“道路”和其他的话。翻译也产生了乱码,网站不得不再次聘请人工翻译来“接班”。
事件发生后,腾讯承认,面对博鳌亚洲论坛复杂的语言环境和高水平的专业内容,“腾讯同声传译”确实出现了失误,错误回答了多个问题。腾讯表示,作为创新孵化和落地的AI产品,“腾讯同声传译”还在学习和成长中,但缺点就是缺点,有缺点的地方就要继续加强学习。
不仅是腾讯,科大讯飞也卷入了“AI同传诈骗”事件。但双方后来证实,造成误会的原因是同声传译员在工作中将“讯飞听”的转录功能误认为是“机器同声传译”。 “通过”结束。
不得不承认,虽然AI技术不断进步,相关自然语言处理技术不断突破,但依然无法改变AI智商不如四岁孩子的现实,尤其是在领域应用场景要求较高的翻译。目前,技术水平还十分有限。但是,我们也不应该否认人工智能技术在翻译领域所取得的成就。没有小步走就没有进步,没有不断试错就没有成功。
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权本站发表,未经许可,不得转载。