发布时间:2022-10-09 14:56 原文链接: 多模态同步语言神经影像数据集发布

  大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助我们更好地了解各个脑区以及脑区之间的协同合作,对于探索大脑的语言加工机制至关重要。当前已有的开源数据主要针对英文采集,只包括单一模态的神经影像数据,如高空间分辨率的功能核磁共振(fMRI)或高时间分辨率的脑磁图(MEG),且多使用1小时以内的实验材料,数据规模有限,无法借助数据需求量大的计算模型进行更全面、更深入的大脑语言加工机制探索。

  中国科学院自动化研究所自然语言处理研究组历时近两年,采集处理完成了迄今为止国际上规模最大、包括信息最丰富的汉语同步多模态神经影像数据集,并于近日正式对外发布。相关研究成果发表在Scientific Data上。

  该数据集是当前国际上最大规模的用于脑语言处理机制研究的多模态同步神经影像数据集,针对12个被试收听约6个小时故事时的功能核磁共振(fMRI)、脑磁图(MEG)、每个被试的T1/T2加权结构像、扩散磁共振成像(diffusion MRI)和静息态核磁共振(resting MRI)数据采集整理而成,采集流程如图1所示。为了便于利用计算模型进行脑语言处理机制的研究,所有故事材料都由人工标注了句法结构树,计算了文本中每个词汇对应的音频时间点、词频以及多种不同字和词汇的向量,如图2所示。所有测试指标均超越或可比拟已有的同类数据集,具有充分的质量保证。

  该数据集的公开发布可为全方位研究大脑在真实场景下理解词汇、短语和句子时如何调动不同脑区以及不同脑区之间如何协同工作等科学问题提供重要支撑。该数据集覆盖了近万个汉语词汇,这对于探讨大脑理解汉语的认知机理具有重要意义,并将在探究自然语言计算模型与人脑语言处理机制之间的关系,以及如何利用神经影像数据提升现有语言计算模型的性能,从而构建新一代受脑启发的神经语言模型等系列工作中发挥作用。

相关文章

一种神经影像特征可用于预测药物和食物渴求强度

施普林格·自然旗下专业学术期刊《自然-神经科学》最新发表的一篇论文报告了一种神经影像特征,可用于预测药物和食物渴求的强度。该论文介绍,对使用药物或进食的渴求,被认为是物质滥用或过度进食的驱动因素。药物......

多模态同步语言神经影像数据集发布

大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助我们更好地了解各个脑区以及脑区之间的协同合作,对于探索大脑的语言加工机制至关重要。当前已有的开源数据主......

多模态同步语言神经影像数据集发布

大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助我们更好地了解各个脑区以及脑区之间的协同合作,对于探索大脑的语言加工机制至关重要。当前已有的开源数据主......

《自然》博客介绍国际神经影像信度与可重复性联盟

日前,中国科学院行为科学重点实验室研究员左西年,应邀在《自然》网站撰写了题为《可重复和标准化人类磁共振成像连接组学测试平台》的博文,回顾与总结了国际神经影像“重测信度与可重复性联盟(CoRR)”自发表......

心理所开发出神经影像数据挖掘的群组独立成分分析方法

人脑是高度复杂的时空动力系统。基于神经影像数据,独立成分分析(ICA)作为一种数据驱动算法,被广泛应用于探索人脑系统的时空特性。在分析多被试数据时,现有ICA方法通常假设组内所有被试具有完全相同的脑活......