2022
07/28
相关创新主体

创新背景

目前,自然语言处理中,有三种特征处理器:卷积神经网络、递归神经网络和后起之秀 Transformer。
Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构。准确地讲,Transformer 仅由自注意力和前馈神经网络组成。

 

创新过程

Meta AI、美国哥伦比亚大学、多伦多大学等的研究人员完成了一个关于深度学习模型和人脑之间相似性的研究。
研究发现,AI模型Wav2Vec 2.0与人类大脑处理语音的方式非常相似,甚至AI也像人类一样,对“母语”有更强的辨别能力,如法语模型就比英语模型更容易感知来自法语的刺激。

研究人员发布的演示视频中展示了AI模型与人脑相互对应的结构:听觉皮层与Transformer的第一层(蓝色)最吻合,而前额叶皮层则与Transformer的最深一层(红色)最吻合。

AI模型Wav2Vec 2.0 接受了600小时的语音训练,这大致相当于新生儿在语言习得的早期阶段所接触的内容。研究人员将此模型与412名志愿者(351名说英语、28名说法语和33名说中文普通话的人)的大脑活动进行比较。

科学家让参与者听一小时自己母语的有声小说,然后对他们的大脑做功能性磁共振成像 (fMRI) 纪录。研究人员将这些大脑活动与Wav2Vec 2.0模型的每一层以及几个变体进行比较,包括随机(未经训练的)Wav2Vec 2.0 模型、在600小时非语音上训练的模型、在600小时非母语语音上训练的模型、在600小时母语训练的模型和直接在参与者母语的语音到文本(speech-to-text)上训练的模型。

研究发现Wav2Vec 2.0使用自监督学习来获取语音波形时的表现类似于在人类大脑中看到的。其次,Transformer层的功能层次与大脑中语音的皮层层次相吻合,这以前所未有的细节揭示了语音处理的全脑排列。第三,该模型对听觉、语音和语言的表征与人脑的表征趋同。第四,对模型与另外386名人类参与者进行的语音辨别练习行为比较表明一种共同的语言专业化。

这些实验结果证明了,600小时的自监督学习就足以产生一个在功能上等同于人脑语音感知的模型。Wav2Vec 2.0学习到语言特定表征的所需的材料与婴儿学说话过程中接触到的“数据量”相当。

 

创新价值

本项研究将机器学习与人类大脑活动之间进行比较,表明在语音方面接受自监督学习训练的Transformer分层活动与人类听觉皮层活动之间存在一定关联性。为了解大脑的运作方式和改进机器学习提供了新思路。

智能推荐

  • 机器人工程创新 | 融合了力觉反馈和视觉监控的咽拭子采样机器人

    2022-06-28

    山东烟台清科嘉研究院和清华大学研究团队共同研发的第三代咽拭子采样机器人问世,该系列机器人可自动进行力觉反馈和视觉监控,采样过程全自动,降低感染风险,有效解决人手不足问题,并实现信息上“云”,支持后台实时查询核酸检测数据。

    涉及学科
    涉及领域
    关键词 
  • 结合人工智能驱动的智能监听设备守护自然森林

    2022-06-30

    智能监听设备为地球的未来带来更多希望。通过收集和分析声音数据,它们也在彻底改变环境科学,即生物声学。生物声学,意味着研究人员通过人工智能可以更系统、更有效地监控和研究物种的行为和多样性。

    涉及学科
    涉及领域
    关键词 
  • 反思可解释性方法,深入探索机器学习的原理

    2022-07-23

    从可解释性方法的角度探索机器学习模型的工作准确性,拓展人工智能研究使用的注意事项。

    涉及学科
    涉及领域
    关键词 
  • 新技术+基础设施 | 主动维修基础设施,提高维修管理效率

    2022-08-17

    利用现代数字化技术帮助精简基础设施维修措施并进行主动预防性维护,降低维修成本,提高维修效率,进而优化公共事业管理、城市管理和工程管理模式。

    涉及学科
    涉及领域
    关键词