发布时间:2020-02-26 16:11 原文链接: 研究人员提出基于神经元整合发放的语音识别新机制

  基于注意力机制的端到端模型正深刻影响着语音识别技术的发展。但经典的注意力识别模型因“要对整句语音编码后投入注意力”的特点面临着无法支持在线(流式)识别、无法提供语音边界时间戳等问题。

  中国科学院自动化研究所博士董林昊、研究员徐波将脉冲神经网络中的整合发放思想进行连续化,提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放(Continuous Integrate-and-Fire,CIF)。CIF会对先后到来的声学信息不断进行整合,当整合的信息量达到识别阈值,将整合后的信息发放以用作后续识别。基于CIF的模型不仅有效地支持了在线识别、边界定位及声学Embedding提取,而且在两个中文基准语音识别集(HKUST、AISHELL-2)上创造了SOTA的性能,有效地解决了目前主流注意力机制模型存在的上述问题。相关成果近期被ICASSP 2020录用为Oral论文。

  连续整合发放(CIF)应用于编解码框架。在每一个编码时刻,CIF分别接收编码后的声学编码表示及其对应的权重(表征了蕴含的信息量)。之后,CIF不断地积累权重并对声学编码表示进行整合(加权求和的形式)。当积累的权重达到阈值后,意味一个声学边界被定位到。此时,CIF模拟了整合发放模型的处理思想,将当前权重分为两部分(如图1所示):一部分用来完成当前标签的声学信息整合(构建一个完整分布),并将整合后的声学信息(声学Embedding)发放到解码器以预测对应的标签;另一部分用作下一个相邻标签的声学信息整合。该过程一直执行到编码后序列的末尾。论文还提出了若干支撑策略来进一步精炼CIF模型的性能,如规整策略、数量损失等。

  该研究工作在多个语音识别基准数据集上对CIF模型的性能进行了验证,这些数据集涵盖了不同的语种和不同的语音类型。其中,在英文朗读数据集Librispeech上,虽然采用的输出标签是没有明确声学边界的子词单元,但CIF仍然获得了有竞争力的2.86%的词错误率表现(如图2所示)。在中文朗读数据集AISHELL-2上,由于输出标签间的声学边界较为清楚,基于CIF的模型获得了突出的性能表现,显著地超过了Chain模型的性能,创造了该数据集上state-of-the-art的字错误率结果(如图3所示)。在中文电话数据集HKUST上,虽然语音上具有很多非正式的口语现象,而且数据集规模相对较小,但是基于CIF的模型仍然展现了良好的泛化性,创造了该数据集上state-of-the-art的字错误率结果(如图4所示)。

  CIF模型不但可以高准确度提供序列转化结果,而且把语音认知中最重要的发音边界进行了精确定位,为语音识别融合各种知识模型提供了新的手段和路径。CIF将整合发放进行连续化思想可推广应用到其它序列转换任务中。据悉,该论文工作在研究团队万级小时大规模训练数据的语音识别中,也超过了团队目前CTC、Transformer等主流模型的已有结果,达到了最好性能,意味着该方法具有工业界大规模应用的极大潜能。

相关文章

运动皮层神经元活动实现新记忆索引

大脑拥有强大的能力执行和学习多样的运动,这有赖于脑内的神经网络产生多样的神经活动模式。美国斯坦福大学的Shenoy团队近期在《自然》杂志发表论文,展示了大脑运动皮层的神经网络如何利用高维神经状态空间中......

新发现|为什么会亲近黑猫而逃离黑豹?

奥地利科学技术研究所(IST)使用大脑齿状回的真实比例计算机模型,发现一种新的模式分离机制,被模式激活的抑制性神经元会抑制所有相邻的神经元,进而关闭与之“竞争”的类似模式。相关研究成果近日发表在《自然......

斑马鱼全脑转录图谱揭示神经元表型分子调控规则

12月13日,eLife在线发表题为Thelandscapeofregulatorygenesinbrain-wideneuronalphenotypesofavertebratebrain的研究论文......

研究解析人脑中间神经元多样性的发育机制

中间神经元是大脑皮层中除兴奋性神经元之外的另一类重要的神经元,通过释放GABA调节兴奋性神经元的活动。中间神经元异常会打破神经网络中的兴奋-抑制平衡,导致癫痫、自闭症、精神分裂等神经精神疾病。大脑中的......

解析内侧前额叶皮层微环路在社会竞争行为中的调控机制

浙江大学研究团队解析了内侧前额叶皮层微环路在社会竞争行为中的调控作用。该研究成果于近日发表在《Neuron》上,题为:Dynamicsofadisinhibitoryprefrontalmicroci......

新发现!人类记忆形成机制最清晰证据发现

据近日发表在《神经影像》杂志上的论文,美国德克萨斯大学西南医学中心的研究人员确定了103个记忆敏感神经元的特征,这些神经元在大脑回忆记忆的方式中发挥着核心作用。这一发现有助于为大脑疾病和损伤开发新疗法......

科学家揭示星形胶质细胞参与记忆维持的关键细胞机制

神经胶质细胞是突触功能和可塑性的重要调节器。星形胶质细胞作为哺乳动物大脑内分布最广泛的一类神经胶质细胞,对神经元的突触连接可起到关键调控作用。研究显示,星形胶质细胞通过调控胞内“钙信号”,引起“胶质递......

Sox6的表达区分了黑质背侧和腹侧偏倚多巴胺神经元

帕金森病黑质致密部(SNc)腹侧层多巴胺(DA)神经元明显退化,背侧层多巴胺(DA)神经元相对完好。定义每个SNc层的分子、功能和发育特征对于理解它们不同的易感性至关重要。作者证明了Sox6表达区分了......

清华大学研究发现咽喉部感受调节进食的神经机制

咀嚼和吞咽是进食的重要步骤。食物的味道、硬度或粘度会激发口腔内和咽喉处不同的感觉。有证据表明,食物对口腔和食道的刺激能够影响饱腹感的形成。然而,我们还不清楚咽喉部的神经元是如何感受食物刺激并且将信号传......

科学家揭示人类胚胎大脑中间神经元发育规律

自闭症、焦虑症、抑郁症......等心理疾病发生时,大脑发生了怎样的改变?越来越多的科学证据表明,上述疾病并不只是心理疾病,还是大脑中的神经元出现了“问题”,正是大脑神经元不停地“传输信号”,才使得我......