得益于神经网络——从人脑获得灵感的计算机算式——的发展,自动化的语言翻译已经存在了相当长一段时间。但训练这些网络需要海量数据:数以千万计的逐句翻译,以展示人类如何做这项工作。现在,两篇新论文表明神经网络可以在无需平行文本的情况下学习翻译——这一令人震惊的进展或让人们获得许多不同语言的文献记录。
计算机很快或能翻译更多语言
“想象一下,你给一个人很多中文书籍和阿拉伯书籍,而且它们没有任何重叠性,然后一个人需要学习将其从中文翻译为阿拉伯语。这听起来似乎不可能,对吧?”其中一项研究的第一作者、西班牙圣西巴提巴斯克国家大学(UPV)计算机专家Mikel Artetxe说,“但我们证明计算机可以做到这一点。”
大多数机器学习——神经网络和其他从经验中学习的计算机算式会受到“监督”。计算机会进行推测,然后接收到正确答案,并据此调整相应的过程。在教一台计算机如何在诸如英语和法语之间进行翻译时,这种模式会非常有效,因为很多文献在这两种语言中同时存在。但它对于罕见的语言,或者是那些没有很多平行文本的通用语言并不奏效。
这两篇尚未经过同行评议的新文章均已被提交给明年的国际学习表征会议,它们聚焦了另一种方法:不监督机器学习。一开始,计算机在没有人类老师告诉它们其推测是否正确的情况下建设双语词典。这是因为语言在词汇结合方面有着很强的相似性。例如,在各种语言中,桌子和椅子的词汇经常会一起使用。因此,如果计算机将这些共现性像一个城市巨大的公路地图那样描绘出来,那么不同语言的地图就会彼此相似,只不过它们拥有不同的名字。如此一来,计算机就能找出将一个地图集覆盖在另一个地图集上的最佳方法。瞧!一本双语词典出现了。
这两篇文章运用了非常类似的方法,均能在语句层面进行翻译。它们均使用两种训练策略,即回译和去噪。在回译中,一种语言中的一句话被粗略地翻译成另一种语言,然后再被转译回最初的语言。如果回译的语句与最初语句并不相同,那么将对神经网络进行调整,从而使它们在下一次翻译得更加准确。去噪类似于回译,但它不是从一种语言翻译为另一种语言,然后再转换为原语言,而是在一个句子中加入噪音(重新编排或是删除词汇),并尝试将其翻译到原语言中去。这两种方法相结合教会了网络更深层次的语言结构。
不过,这两种技术之间也有些微差异。UPV的系统在训练过程中进行了更多的回译。而另一个由位于法国巴黎的脸谱网计算机科学家与其合作者研发的系统,则在翻译过程中加入了额外的步骤。在将其“解码”为另一种语言之前,两套系统都会将一种语言的一个句子编码为一种更加抽象的表征,但脸谱网的系统验证了中间的“语言”是真正抽象的。Artetxe和Artetxe均表示,他们可以通过应用对方论文中的技术来改善自己的结果。
在两篇文章之间进行的唯一直接对比结果中——对摘自同一组约3000万个语句在英语和法语文本之间进行翻译,两套系统在双向翻译中均获得了15分的双语评估分数(用来衡量翻译准确性)。这个分值没有谷歌翻译高(该系统所用的受监督的方法得分为40分),也不如人类翻译得分高(超过50分),但却比逐字翻译要好得多。作者表示,两套系统可以很容易地通过变为“半监督性”得到改善,即把数千个平行的语句加入到它们的训练中。
除了不需要平行文本进行跨语言翻译之外,Artetxe和Lample均表示,他们的系统有助于进行诸如英语和法语之间的常用翻译匹配,特别是如果平行文本是同一类的话,如新闻报道。但除此之外,人们还希望将其翻译为不同类型的文本,如街头俚语或是医学术语。“但这一切尚处于新生阶段。”Artetxe的共同作者Eneko Agirre说,“我们刚刚开始了一个新的研究大道,现在我们还不知道它会通向哪里。”
中国北京计算机学家、其工作对上述两项研究产生影响的Di He说:“在没有人类监督的情况下,计算机能够学习翻译,这令人吃惊。”Artetxe说,他的方法和Lample的方法被上传到arXiv预印本服务平台的时间前后仅相隔1天,这样的时间巧合令人吃惊。“同时,它意味着这种方法的确是正确的方向。”
10月25日,第五届电子信息工程与计算机技术国际学术会议(EIECT2025)在广东江门召开。该会议采用线上线下相结合的创新模式,汇聚了来自全国各地相关领域的众多专家学者,大家围绕电子信息工程、计算机......
8月15日至16日,第五届先进算法与神经网络国际学术会议(AANN2025)在山东青岛召开。会议期间,与会代表通过主讲报告、口头汇报、海报展示等多种形式,分享了最新研究成果,探讨了学科发展趋势。本次会......
希腊研究和技术基金会科学家受生物神经元启发,开发出一种融入树突特征的新型人工神经网络。与传统人工神经网络相比,新网络在参数更少、能耗更低的情况下,实现了图像识别性能的显著提升,为打造更紧凑、更节能的人......
近日,在2024数字科技生态大会上,国内单台比特数最多的超导量子计算机天衍-504正式发布。国内单台比特数最多的超导量子计算机天衍-504。中电信量子集团供图据悉,天衍-504超导量子计算机是中电信量......
据俄新社日前报道,在阿联酋阿布扎比举行的2024年IEEE国际图像处理大会上,俄罗斯国家研究型工艺大学研究人员展示了一种具备自我怀疑能力的神经网络。为应对急速增长的数据量,研究人员一直致力于研发更加可......
近日,中国科学院脑科学与智能技术卓越创新中心王凯研究组在《自然-方法》(NatureMethods)上,在线发表了题为VolumetricVoltageImagingofNeuronalPopulat......
10月24日,2024中国计算机大会(CNCC2024)在浙江东阳横店开幕,吸引了一万多名计算相关领域学术、教育、企业界人士参会。围绕“发展新质生产力,计算引领未来”主题,800多位国内外知名专家学者......
尽管量子计算机领域的研究进展突飞猛进,但量子计算机的“性情”仍不稳定,容易出错,尚无法投入实际应用。为此,包括谷歌和IBM等在内的众多公司竞相开发量子纠错技术,旨在为最终实现稳定可靠的量子计算系统奠定......
2024年诺贝尔物理学奖得主(图片来源:诺奖官网)北京时间10月8日下午5点45分,瑞典皇家科学院宣布将2024年诺贝尔物理学奖授予:JohnJ.Hopfield、GeoffreyE.Hinton。获......
9月16日,信息管理与数学学院、计算机与人工智能学院揭牌仪式举行。中国科学院计算所所长陈熙霖教授、江西师范大学原校长梅国平教授、鹏城实验室副主任石光明教授、南昌大学副校长杜建强教授、华东交通大学副校长......