发布时间:2018-01-25 09:10 原文链接: 讯飞与哈工大联合实验室刷新SQuAD成绩,指标大幅提升

  科大讯飞与哈工大联合实验室(HFL)在 SQuAD 上又刷新了成绩,不仅在精确匹配(Exact Match,下称 EM)指标上超过人类平均水平,模糊匹配(F1-score,下称 F1)指标也首次达到 89.281 。

  SQuAD(Stanford Question Answering Dataset)为斯坦福大学发起的文本理解挑战赛,是行业内公认的机器阅读理解领域的顶级水平测试,它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。

  在阅读数据集内的文章后,机器需要回答若干与文章内容相关的问题,并通过与标准答案的比对,得到 EM 和 F1 的结果。

  在 2018 年 1 月初,以阿里巴巴、微软亚洲研究院(下称 MSRA)为代表的中国研究团队相继刷新了 SQuAD 的 EM 纪录,机器阅读能力的准确率首次超越人类。 而在今天,科大讯飞与哈工大联合实验室也在 SQuAD 上获得了超越人类的 EM 分数,并在 F1 上也获得了第一名的成绩。

  早在 2017 年 7 月,科大讯飞与哈工大联合实验室( HFL )在 SQuAD 上提交的系统模型就曾夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。为此,雷锋网 AI 科技评论专访了科大讯飞研究院副院长王士进,当时他指出,成为世界第一,只是阅读理解系统万里长征的第一步。

  虽然国内研究机构所提交的系统相继在 SQuAD 中超过了人类平均水平,相比往期毫无疑问是一个巨大的进步,但这并不能代表机器在阅读理解任务上「完全」战胜人类。毕竟在认知推理层面,机器仍然没有达到人类所具备的真实能力。

  阅读理解是 NLP 领域里一个公认的难题,也是未来一个非常重要的趋势。据了解,讯飞与哈工大联合实验室提交的融合式层叠注意力系统(Hybrid Attention-over-Attention Reader)融合了基于上下文的文本表示、自适应转随机梯度下降的优化方法等前沿技术。王士进在此前的采访中表示,在 7 月份向 SQuAD 提交结果前,科大讯飞与哈工大联合实验室团队在该数据集中花了四个多月的时间,主要采用的方法还是主流的深度学习。

   原来的做法是,系统会给出一些训练集,包括包括篇章、问题和对应的答案,然后通过神经网络去学习,自动构建找到问题和答案的对应关系的一个方式。但我们做法有两点不一样的地方:

   一个是我们的“基于交互式层叠注意力模型”,一开始她可能先锁定住一些片段,然后通过多轮迭代的方式进行过滤,进一步锁定筛选出更精准的一些内容,去除整篇文章的干扰,最终得出问题的答案。

   第二,我们采用了模型融合的方式。对于问题我们会提出不同的模型,然后对这些模型进行一个融合(ensamble)。因为我们知道,一般来说单一模型的性能并不是特别好,我们其实研究的是如何把多个不同机理的模型融合和在一起产生最好的效果。

  详细的技术细节分析与趋势探讨,可参考雷锋网 AI 科技评论的往期报道《成为世界第一,只是阅读理解系统万里长征的第一步》。

相关文章

科大讯飞四获国际多通道语音分离与识别大赛冠军

时隔3年后,国际多通道语音分离和识别大赛CHiME-7再次“上线”。当地时间8月25日,CHiME-7Workshop在Meta公司都柏林研发中心举行,官方组委会现场公布了大赛成绩:科大讯飞联合中科大......

刘庆峰代表:建议将科技适老列入国家发展战略

全国两会期间,针对我国的人口老龄化现象,全国人大代表、科大讯飞董事长刘庆峰建议,鼓励用人工智能技术服务于老年人群的安全守卫、家政护理、情感关怀,并建议将科技适老列入国家发展战略。刘庆峰代表科大讯飞供图......

从ChatGPT的崛起,看科大讯飞的变化与生机

周期,是人类社会最朴素的内核规律之一。直至18世纪中叶亚当·斯密以《国富论》开启古典经济学以降,人们愈渐掌握现代经济学理论工具用以解构这个世界,这一过程里,社会经济领域“长中短波”式的峰谷变幻,不断强......

2022中国人工智能创新发展指数发布

11月18日,第五届世界声博会暨2022科大讯飞全球1024开发者节在安徽合肥开幕。现场,中国电子信息产业发展研究院(又称“赛迪研究院”)院长张立发布了2022中国人工智能创新发展指数(合肥指数)。这......

科大讯飞:AI虚拟主播“上新”

“大家好,我是你们的主播茜茜。”“我是茜茜的妹妹,西西,别忘记点‘关注’哦。”5月15日,主播茜茜牵手“孪生妹妹”亮相科大讯飞抖音直播间,这对“姐妹花”样貌相同,可却不是双胞胎——科大讯飞新推出的AI......

讯飞与哈工大联合实验室刷新SQuAD成绩,指标大幅提升

科大讯飞与哈工大联合实验室(HFL)在SQuAD上又刷新了成绩,不仅在精确匹配(ExactMatch,下称EM)指标上超过人类平均水平,模糊匹配(F1-score,下称F1)指标也首次达到89.281......

科大讯飞入选首批国家新一代人工智能开放创新平台

近日,科技部召开《新一代人工智能发展规划》暨重大科技项目启动会,会议除了宣布成立了新一代人工智能发展规划推进办公室、新一代人工智能战略咨询委员会之外,科技部高新司司长秦勇还公布了首批国家新一代人工智能......

科大讯飞将在武汉设立全国研发总部

8月31日,武汉市与科大讯飞签订战略合作协议,科大讯飞将在武汉光谷设立全资子公司,运营讯飞全国研发中心和武汉总部项目,并将武汉项目“打造成为全国研发总部”。武汉市市长万勇表示,科大讯飞代表着思想、理念......

中国医学科学院牵手科大讯飞共谋“AI+医疗”

4月18日,中国医学科学院北京协和医学院院校长、中国工程院院士曹雪涛,副院校长郑忠伟、张勤等领导与科大讯飞股份有限公司董事长刘庆峰、高级副总裁江涛、副总裁赵志伟一行同时出现在北京协和医学院新教学科研楼......

胡郁:让我们的声音传遍世界

科大讯飞供图互联网发展到2009年,进入移动互联新时期,科大讯飞终于找到了和互联网的切合点。2010年,科大讯飞发布了全球首个移动互联网智能语音交互平台——讯飞语音云,宣告移动互联网语音听写时代到来。......