发布时间:2017-12-04 11:51 原文链接: 人工智能“自学”做翻译

  得益于神经网络——从人脑获得灵感的计算机算式——的发展,自动化的语言翻译已经存在了相当长一段时间。但训练这些网络需要海量数据:数以千万计的逐句翻译,以展示人类如何做这项工作。现在,两篇新论文表明神经网络可以在无需平行文本的情况下学习翻译——这一令人震惊的进展或让人们获得许多不同语言的文献记录。

 计算机很快或能翻译更多语言

  “想象一下,你给一个人很多中文书籍和阿拉伯书籍,而且它们没有任何重叠性,然后一个人需要学习将其从中文翻译为阿拉伯语。这听起来似乎不可能,对吧?”其中一项研究的第一作者、西班牙圣西巴提巴斯克国家大学(UPV)计算机专家Mikel Artetxe说,“但我们证明计算机可以做到这一点。”

  大多数机器学习——神经网络和其他从经验中学习的计算机算式会受到“监督”。计算机会进行推测,然后接收到正确答案,并据此调整相应的过程。在教一台计算机如何在诸如英语和法语之间进行翻译时,这种模式会非常有效,因为很多文献在这两种语言中同时存在。但它对于罕见的语言,或者是那些没有很多平行文本的通用语言并不奏效。

  这两篇尚未经过同行评议的新文章均已被提交给明年的国际学习表征会议,它们聚焦了另一种方法:不监督机器学习。一开始,计算机在没有人类老师告诉它们其推测是否正确的情况下建设双语词典。这是因为语言在词汇结合方面有着很强的相似性。例如,在各种语言中,桌子和椅子的词汇经常会一起使用。因此,如果计算机将这些共现性像一个城市巨大的公路地图那样描绘出来,那么不同语言的地图就会彼此相似,只不过它们拥有不同的名字。如此一来,计算机就能找出将一个地图集覆盖在另一个地图集上的最佳方法。瞧!一本双语词典出现了。

  这两篇文章运用了非常类似的方法,均能在语句层面进行翻译。它们均使用两种训练策略,即回译和去噪。在回译中,一种语言中的一句话被粗略地翻译成另一种语言,然后再被转译回最初的语言。如果回译的语句与最初语句并不相同,那么将对神经网络进行调整,从而使它们在下一次翻译得更加准确。去噪类似于回译,但它不是从一种语言翻译为另一种语言,然后再转换为原语言,而是在一个句子中加入噪音(重新编排或是删除词汇),并尝试将其翻译到原语言中去。这两种方法相结合教会了网络更深层次的语言结构。

  不过,这两种技术之间也有些微差异。UPV的系统在训练过程中进行了更多的回译。而另一个由位于法国巴黎的脸谱网计算机科学家与其合作者研发的系统,则在翻译过程中加入了额外的步骤。在将其“解码”为另一种语言之前,两套系统都会将一种语言的一个句子编码为一种更加抽象的表征,但脸谱网的系统验证了中间的“语言”是真正抽象的。Artetxe和Artetxe均表示,他们可以通过应用对方论文中的技术来改善自己的结果。

  在两篇文章之间进行的唯一直接对比结果中——对摘自同一组约3000万个语句在英语和法语文本之间进行翻译,两套系统在双向翻译中均获得了15分的双语评估分数(用来衡量翻译准确性)。这个分值没有谷歌翻译高(该系统所用的受监督的方法得分为40分),也不如人类翻译得分高(超过50分),但却比逐字翻译要好得多。作者表示,两套系统可以很容易地通过变为“半监督性”得到改善,即把数千个平行的语句加入到它们的训练中。

  除了不需要平行文本进行跨语言翻译之外,Artetxe和Lample均表示,他们的系统有助于进行诸如英语和法语之间的常用翻译匹配,特别是如果平行文本是同一类的话,如新闻报道。但除此之外,人们还希望将其翻译为不同类型的文本,如街头俚语或是医学术语。“但这一切尚处于新生阶段。”Artetxe的共同作者Eneko Agirre说,“我们刚刚开始了一个新的研究大道,现在我们还不知道它会通向哪里。”

  中国北京计算机学家、其工作对上述两项研究产生影响的Di He说:“在没有人类监督的情况下,计算机能够学习翻译,这令人吃惊。”Artetxe说,他的方法和Lample的方法被上传到arXiv预印本服务平台的时间前后仅相隔1天,这样的时间巧合令人吃惊。“同时,它意味着这种方法的确是正确的方向。”

相关文章

首个欧洲量子计算机网络将于2023年投入使用

欧洲高性能计算联合企业(EuroHPCJU)10月4日宣布,将选择捷克、德国、西班牙、法国、意大利、波兰六个成员国来部署史上第一个欧洲量子计算机网络,它将整合这六个国家现有的超级计算机,形成一个量子计......

我国团队首创新算法,让细胞与计算机“对话”

细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释稳定性较低。可以理解为,同一......

百度发布量子计算机:不是裸机,“开箱即用”

文|《中国科学报》记者赵广立把“量子计算机”与“产业化”联系在一起?是的。成立4年多的百度量子计算研究所,决定在时下热门的量子计算的赛道上,做点不一样的。8月25日,在“量见未来”量子开发者大会上,百......

科学家提出液晶计算机新构想

科技日报北京8月22日电(记者刘霞)两位科学家在最新一期《科学进展》杂志上撰文提出了一种新的计算机制造方法:用液晶构建计算机,这种计算机将使用分子的朝向来存储数据,其计算方式类似量子计算机,但比量子计......

锚定三大使命,60岁的中国计算机学会再出发

2022年是中国计算机学会(CCF)创建六十周年。8月6日,CCF在苏州业务总部&学术交流中心(CCFCCB)举行了创建六十周年庆典活动。来自政府相关部门、学术界、产业界的500多位代表受邀现......

2022CCF未来计算机教育峰会举行

7月22~23日,由中国计算机学会(CCF)主办,苏州大学、苏州科技大学、苏州城市学院、上海师范大学、浙江工商大学联合承办的2022CCF未来计算机教育峰会(FCES2022)在苏州CCFCCB(业务......

李和风调研计算机网络信息中心

7月15日,中国科学院党组成员、副秘书长李和风到中科院计算机网络信息中心调研网络安全工作。李和风一行观看了中国科技云、院网络安全保障平台等系统的演示,听取了院网络安全管理和技术保障工作汇报,并进行了交......

从计算到智算,计算机革命已列入“十四五”

算力作为数字经济时代的关键生产力要素,已成为推动数字经济发展的核心支撑力和驱动力。在6月29日举行的中国算力大会新闻发布会上,工业和信息化部副部长张云明透露,截至2021年底,我国在用数据中心机架总规......

我国学者在面向社交媒体的情感语义计算研究方面进展

图面向社交媒体的情感语义计算框架社交媒体是以社会网络为基础,互联网用户发表和分享信息为主要形式的在线交互媒体,对社交媒体中的文本进行全面、深度的情感语义分析具有重要的理论意义和应用价值。在国家自然科学......

国内首次!清华姚班本科生斩获国际计算机顶会大奖

一个由3名中国本科生组成的团队,近日在全球顶会计算理论年会(STOC)上击败众多本硕博组合,摘得最佳学生论文奖。这项结果殊为不易。其一,STOC由美国计算机协会(ACM)举办,在理论计算机科学这座山峰......