2022
07/28
相关创新主体

创新背景

目前,自然语言处理中,有三种特征处理器:卷积神经网络、递归神经网络和后起之秀 Transformer。
Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出,并用于机器翻译任务,和以往网络架构有所区别的是,该网络架构中,编码器和解码器没有采用 RNN 或 CNN 等网络架构,而是采用完全依赖于注意力机制的架构。准确地讲,Transformer 仅由自注意力和前馈神经网络组成。

 

创新过程

Meta AI、美国哥伦比亚大学、多伦多大学等的研究人员完成了一个关于深度学习模型和人脑之间相似性的研究。
研究发现,AI模型Wav2Vec 2.0与人类大脑处理语音的方式非常相似,甚至AI也像人类一样,对“母语”有更强的辨别能力,如法语模型就比英语模型更容易感知来自法语的刺激。

研究人员发布的演示视频中展示了AI模型与人脑相互对应的结构:听觉皮层与Transformer的第一层(蓝色)最吻合,而前额叶皮层则与Transformer的最深一层(红色)最吻合。

AI模型Wav2Vec 2.0 接受了600小时的语音训练,这大致相当于新生儿在语言习得的早期阶段所接触的内容。研究人员将此模型与412名志愿者(351名说英语、28名说法语和33名说中文普通话的人)的大脑活动进行比较。

科学家让参与者听一小时自己母语的有声小说,然后对他们的大脑做功能性磁共振成像 (fMRI) 纪录。研究人员将这些大脑活动与Wav2Vec 2.0模型的每一层以及几个变体进行比较,包括随机(未经训练的)Wav2Vec 2.0 模型、在600小时非语音上训练的模型、在600小时非母语语音上训练的模型、在600小时母语训练的模型和直接在参与者母语的语音到文本(speech-to-text)上训练的模型。

研究发现Wav2Vec 2.0使用自监督学习来获取语音波形时的表现类似于在人类大脑中看到的。其次,Transformer层的功能层次与大脑中语音的皮层层次相吻合,这以前所未有的细节揭示了语音处理的全脑排列。第三,该模型对听觉、语音和语言的表征与人脑的表征趋同。第四,对模型与另外386名人类参与者进行的语音辨别练习行为比较表明一种共同的语言专业化。

这些实验结果证明了,600小时的自监督学习就足以产生一个在功能上等同于人脑语音感知的模型。Wav2Vec 2.0学习到语言特定表征的所需的材料与婴儿学说话过程中接触到的“数据量”相当。

 

创新价值

本项研究将机器学习与人类大脑活动之间进行比较,表明在语音方面接受自监督学习训练的Transformer分层活动与人类听觉皮层活动之间存在一定关联性。为了解大脑的运作方式和改进机器学习提供了新思路。

智能推荐

  • 利用新型“质子可编程电阻”进一步提升模拟深度学习的效率

    2022-08-31

    多学科研究团队利用二氧化硅和磷,制造出了拥有高质子导电性的新型无机磷硅酸盐玻璃(PSG)材料,并开发出了一种新型高能效质子可编程电阻。利用这种新型电阻器,通过增加和减少质子电阻的电导,实现了更快、更节能的模拟深度学习,从而使人工智能具有高效率、低能耗的计算能力。

    涉及学科
    涉及领域
    研究方向
  • AI+医学检验技术 | 利用新兴技术完成核酸检测全自动化

    2022-06-30

    核酸检测创新融合人工智能、机器人、大数据和物联网,提高检测效率,降低人力成本。

    涉及学科
    涉及领域
    研究方向
  • AI+金融学 | 新型高精度翻译金融领域文件的引擎

    2022-11-22

    研究人员开发的这种新的基于AI的高精度翻译引擎,可以在日语和英语之间翻译金融部门的文件。

    涉及学科
    涉及领域
    研究方向
  • AI+医学影像学 | 结合硬件创新和机器学习算法可揭示大脑的飞速活动

    2022-09-28

    杜克大学的生物医学工程师开发了一种方法,可以实时扫描和成像小鼠大脑内的血流和氧气水平,其分辨率足以同时查看单个血管和整个大脑的活动。

    涉及学科
    涉及领域
    研究方向