打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
脑电研究:通过神经活动和视觉特征的多模态学习解码大脑表征
本文提出了一种探索人脑视觉表征的新方法,这种方法的实现过程有希望在未来应用于机器和人工智能的实现。本文方法的核心思想是通过将人类神经活动和自然图像联系起来,学习合理的计算生物表征。基于此目的,首先提出了一个模型——脑电信号通道网络(EEG-ChannelNet,以学习用于脑电信号分类的大脑流形。在验证了可以从EEG数据中提取视觉信息之后,作者介绍了一种多模态方法,该方法使用经过孪生网络训练的深度图像和EEG编码器来学习联合流形,以最大程度地实现视觉特征与大脑表征之间的兼容性。然后对学习到的流形进行图像分类和显著性检测。性能分析表明,本文的方法很好地解码了神经信号中的视觉信息。这反过来可以用来有效地监督深度学习模型的训练,研究结果表明,学习到的脑视觉特征可以提高模型表现,同时使深层模型更符合与视觉感知和注意相关的认知神经科学工作所提出的假设。本研究发表在IEEE Transactions on Pattern Analysis and Machine Intelligence杂志可添加微信号siyingyxf18983979082获取原文及补充材料

注:本文涉及的一些专业术语的解释
  孪生神经网络即siamses network该类模型有两个输入(Input1 and Input2,将两个输入feed进入两个神经网络(Network1 and Network2),这两个神经网络分别将输入映射到新的空间,形成输入在新的空间中的表示。通过Loss的计算,评价两个输入的相似度,是不同模态数据比较过程中常用的神经网络方法。
   流形学习(manifold learning是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。本文中作者利用流行学习的目的主要是对神经信号数据和图像数据的低维特征进行融合。
特征嵌入,将数据转换(降维)为固定大小的特征表示(矢量),以便于处理和计算(如求距离)。例如,针对用于说话者识别的语音信号训练的模型可以允许您将语音片段转换为数字向量,使得来自相同说话者的另一片段与原始向量具有小的距离(例如,欧几里德距离)。embedding的主要目的是对(稀疏)特征进行降维,它降维的方式可以类比为一个全连接层(没有激活函数),通过 embedding 层的权重矩阵计算来降低维度。
Triplet loss最初是在FaceNet的论文中提出,可以较好地学到人脸的embedding,相似的图像在embedding空间里是相近的,可以判断是否是同一个人脸。
 
1.前言
在当下,人工系统几乎可以与人类的视觉能力相媲美,这主要归功于深度学习方面的最新进展。实际上,受到灵长类动物视觉系统的启发而产生的深层前馈和递归神经网络已显著提高了计算机视觉、自然语言处理、语音识别和游戏的性能。除了在这类任务中获得表现的显著提高外,通过深度计算模型学习的表征似乎与大脑表征高度相关。例如,可以发现视觉通路中的大脑表征与深层神经网络(DNNs)中各层的层次结构之间的相关性。这些发现有利于认知神经科学家和人工智能研究人员参与多学科研究,目的是对人类大脑及其适应能力进行逆向工程。然而,这一多学科领域仍处于初级阶段。事实上,现有的计算神经模型虽然粗略地模拟了生物神经元的计算和连接,但它们往往忽略了前馈和反馈神经的相互作用。例如,人类的视觉识别似乎通过跨大脑皮质区域正向和反向加工的信息的多级聚合而得以缓解。
最近的一些方法受到神经科学中层次预测编码的启发,尝试通过提出具有前馈、反馈和循环连接的递归神经网络来将这些额外的信息编码到计算模型中。这些模型在视觉分类任务中具有良好的表现,并表明更详细地了解人脑可能会让我们将知识转移到工程模型中,以创造更好的机器。显然,在将人类水平的分类性能转移到计算模型之前,首先需要更好地理解人类的视觉系统。为了实现这一点,作者打算将人类被试在执行特定任务时记录的神经活动数据与为完成相同任务而开发的计算模型相关联。通过研究学习到的计算表征以及它们如何随时间与神经活动相关,就有可能推断、分析并最终在机器中复制复杂的大脑加工编者注:此类研究在近年来越来越多,许多研究者认为既然我们无法直接观察大脑,那么设计一个和大脑在任务表现和任务执行过程都相似的计算模型后,计算这个模型与人类表现的相似性,在极大相似的情况下,通过研究这个模型的具体运算过程可能有助于我们理解大脑,不论这种方法在假设上是否正确,但至少提出了一种靠近人脑的工程方法,因此,近年来出现了许多类似的研究
在本文中,首先提出了一个通过对大脑对自然图像的反应进行分类来学习神经表征的模型。然后,介绍了一种基于深度学习脑电和图像编码器的多模态方法,并在孪生网络下进行训练。利于几个对静止图像进行视觉分类的被试的脑电活动数据学习了一种联合的大脑-视觉特征,并发现了大脑表征和视觉特征之间的相似性。然后,该特征被用于执行图像分类、显著性检测,并假设在人脑中生成的可能的表征用于视觉场景分析。

本文证明了:
a)神经活动数据可用于为深度学习模型提供更丰富的监督标记,从而使视觉分类和显着性检测方法与人类神经数据保持一致;
b)人工智能和认知神经科学的共同努力可能通过最大化深度模型与人类神经反应的相似性来揭示人类视觉感知中涉及的神经加工。事实上,本文提出了一种方法来提取视觉显著性(及其随时间的演变),以及定位产生这些信息的皮层区域;
      c)计算表征和大脑加工之间存在潜在的相似性,这为生物学和深度学习模型之间的一致性提供了有趣的见解。

2.相关工作
脑电数据分类
近年来,基于深度学习的脑电数据分类方法越来越流行。这些方法中的大多数都提出了定制的AI解决方案,用于对BCI(脑机接口)应用程序(例如,运动图像、语音想像、情感识别等)、临床应用程序 (例如,癫痫检测和预测)或者监测认知功能 (脑力负荷、参与、疲劳等) 的数据进行分类。上述工作集中在少数几个类别的分类(从二进制分类到10个以下的类别)没有一个是以理解人类视觉加工(在空间和时间上)为主要目标的。此外,大多数提出的模型已经应用于单一的脑机接口范式,具有非常可控的刺激。显而易见的担忧是,这些方法可能无法推广,并且随着刺激和任务的微小变化,它们的功能可能会崩溃。EEGNet试图解决这一泛化问题。该方法在P300视觉诱发电位、错误相关负反应(ERN)、运动相关皮层电位(MRCP)和感觉运动节奏(SMR)等任务中表现良好。
本文提出的EEG分类方法旨在通过对神经反应的更一般的时空特征进行建模来支持认知神经科学的研究,以提高人类神经数据在时间和空间上的可解释性。

用于解码大脑表征的计算神经科学
破译大脑表征一直是这个时代的巨大挑战。认知神经科学在理解起源于初级视觉皮层(V1)的神经表征方面取得了很大进展。实际上,已知初级视觉皮质是在视网膜定位组织上的一系列定向边缘和颜色检测器,其信号前馈到专注于更复杂的形状和特征维度的神经区域,这些神经区域在区域V4中较大的感受野上起作用,最后到达下颞叶(IT)皮层中的对象和类别表征。神经影像学方法,例如fMRIMEGEEG,对于这些发现至关重要。然而,要重建完全代表我们视觉加工的人类水平的神经表征,需要同时精确地监测大脑中每个神经元的活动。尽管这些方法显然无法实现这一崇高目标,但它们包含足够的信息以准确地重建许多视觉体验。为此,大脑表征解码最近考察了神经活动数据和计算模型之间的相关性。然而,这些方法主要是在深度学习表征和神经成像数据之间进行简单的相关,并根据获得的结果得出关于大脑表征的结论,这过于简单化了。事实上,作者想法的核心是对人的视觉系统的了解将来自训练自动模型以最大程度地增强大脑活动与激发刺激之间的信号相关性,而不是对大脑活动数据进行纯粹的分析。此外,虽然大多数方法试图使用来自高空间分辨率fMRI的脑图像来解码大脑表征,但目前的工作是第一个采用脑电数据的方法,尽管空间分辨率较低,但具有较高的时间分辨率,这使得它更适合于解码快速的大脑加工,比如那些涉及视觉通路的加工。此外,与fMRI不同的是,脑电图是便携的、可移动的,甚至可以无线使用,这一特点将改善任何脑机接口。
由大脑活动引导的机器学习
近年来,机器学习和认知神经科学之间的交叉和重叠显著增加。深度学习方法被用于神经响应预测,反过来,诸如编码理论、工作记忆和注意力之类的生物启发机制也越来越多地被采用。然而,到目前为止,人类的认知能力似乎仍然过于复杂,无法通过计算来理解,而数据驱动的“逆向工程”人类思维的方法可能是推进人工智能的最佳方式。(通过机器模仿来理解人类大脑,不知道是不是一种没有办法的办法)
在这种情况下,最近的研究已经使用神经活动数据来限制模型训练。例如,将通过深度前馈模型学习的视觉特征映射到直接从脑电数据学习的大脑特征,以执行自动视觉分类。还有研究使用fMRI数据来偏向机器学习算法的输出,并推动其利用在视觉皮层中发现的表征。这项工作类似于第一批依赖大脑活动数据执行视觉分类的方法之一,区别在于前者显式地利用神经活动来权衡训练过程,而后者提出了一种核对齐算法(意思就是相同大小的卷积核)来融合视觉分类器的决策和大脑数据。
本文作者提出了这两个领域之间更深层次的联系:不是使用神经数据作为信号来权衡计算学习的表征,而是学习图像和相应神经活动之间的映射,从而使视觉模式与神经加工一对一地联系起来编者注:也就是说不像以往的机器学习或者深度学习直接把人脑对图像的最终反应信号作为学习对象然后进行监督式的图形分类学习,本文的重点在于在识别图像的过程中,人脑信号的动态特征反映了人脑识别图片时对那些图片特征进行了提取)。这种映射可能会揭示更多关于大脑表征的信息,并能够以更内在和更全面的方式指导训练加工。因此,这种方法不仅仅是一种受神经数据启发或约束的混合机器学习方法,而是一种隐含地发现计算表征、视觉模式和大脑表征之间的相似性,并使用它们来执行视觉任务的方法。

多模态学习
现实世界的信息来自多个模态,每个模态都带有不同形式但同样有用的内容,用于构建智能系统。具体地说,多模态学习方法试图通过找到联合表征来学习特征嵌入(feature embedding),其本质是通过对不同模态的真实对象的特征学习来寻找能够共同表征的特征单位。有效的联合表征必须保持模态内相似性(例如,两个相似图像在联合空间中应该具有接近的矢量表征;同样,两个等价的文本描述也应该具有相似的表征)和模态间相似性(例如,描述该图像的内容的图像和文本片段在联合空间中应该比图像和不相关的文本片段更接近)。根据这一性质,大多数方法找到视觉数据与文本或音频之间的对应,以支持区分任务(例如,分类)或以一种模态为条件的对另一种模态的预测(例如,图像合成或检索)。对于前一类方法,已经使用字幕和标签来提高浅分类器和深分类器的精度。类似地,有的研究使用音频来监督视觉表征;有的研究利用视觉来监督音频表征;有的研究使用声音和视觉来共同监督彼此;还有研究探索了如何通过分析运动和语义线索来分离和定位视频中的多个声音。相反,其他工作集中于预测来自另一模态的一种模态中的丢失数据,例如,从图像生成文本描述,反之亦然。有研究提出了一种联合表征空间来调节生成对抗网络(GANS),用于从文本描述合成图像。有研究使用可变自动编码器从文本字幕合成图像。还有研究使用了一种从大脑信号中学习的嵌入方法,使用GAN和变分自动编码器来合成图像。
在本文中,作者的方法受到学习共享多模态表征的方法的启发,但有几个关键的区别。首先,作者使用的一种方式是大脑活动数据(EEG),几乎可以肯定它比文本/音频的噪音更大。这使得发现视觉和大脑模态之间的关系变得更加困难。从这个意义上说,作者的方法旨在提高预测的准确性,并作为一种特征发现工具来揭示大脑加工。因此,主要目标是学习一个可靠的联合表征,并探索学习的空间,找到能够揭示大脑表征的视觉和大脑特征之间的对应关系,这些特征反过来可以用来建立更好的深度学习模型。
此外,所提出的由两个编码器(每个模态一个)组成的深度多模态网络在孪生网络中被训练,并且采用损失函数,该损失函数强制执行所学习的嵌入以表征样本之间的范畴内差异,而不仅仅是范畴间的区别特征。

3. 视觉-大脑特征的多模态学习
神经活动(由脑电图记录)和视觉数据有非常不同的结构,要找到一个共同的表征并不是一件容易的事。以前的方法已经尝试通过训练单个模型来找到这样的表征:例如,首先通过训练EEG信号的递归分类器来学习大脑表征,然后训练CNN来将视觉特征回归到对应EEG/图像对的大脑特征。虽然这提供了有用的表征,但已学习特征的效用与用于计算初始表征的任务紧密相关(例如,图像分类),并且更关注于学习分类特征,而不是寻找脑电图和视觉模态之间的关系。
因此,作者认为从人类神经信号和图像到公共空间的任何变换都应该通过最大化每个输入表征的特征嵌入之间的相似性来联合学习。为此,作者定义了一种孪生网络,用于学习使用深度编码器的脑电信号和图像之间的结构化联合嵌入,并最大化两种模态之间的相似性度量。模型的结构如图1所示。设D={eivi}iN=1D是神经信号样本和图像的数据集,使得每个神经(EEG)样本ei响应于观看图像vi而记录在人类对象上。理想情况下,潜在信息内容应该由eivi共享。同样,设ε是EEG信号样本的空间,V是图像的空间。方法的目的是训练两个编码器,它们分别将神经响应和图像映射到公共空间J,即ψ:ε→J和θ:VJ

1. 孪生网络用于学习大脑-图像的联合表征。
其思想是通过最大化每个输入表征的两个嵌入之间的兼容性函数来学习公共空间。给定图像和来自一个对象的相关EEG之间的正匹配,以及相同EEG和不同图像之间的负匹配,对网络进行训练以确保相关EEG /图像对之间的相似度比不相关的更接近(更高的兼容性)。 
在用于结构化学习的其它方法中,编码器的训练基于兼容性函数F:ε×VR的定义的分类问题,该兼容函数计算相似性度量作为EEG/图像对的各自嵌入之间的点积:F(ev)= ψ(e)Tθ(V) (方程1) 。虽然作者采用相同的建模框架,但将问题描述为一个嵌入任务,其唯一目标是最大化对应对之间的相似度,而不隐式地执行分类,因为这将使得作者回到与分类任务相关的学习表征的限制。
为了从任何特定的任务中提取学习过程,用triplet loss来训练孪生网络,目的是将匹配的脑电和图像的表征映射到联合空间中的邻近点,同时排除不匹配的表征。因此,给定两对脑电/图像(e1v1)(e2v2),我们认为e1为锚定项(anchor),v1为正项,v2为负项。使用兼容性F(其是相似性度量而不是距离度量,相似度可以判断是否正确地学习到了脑电和图像对之间的关系),用于训练编码器的损失函数变为:L(e1v1v2)=max{0F(e1v2)−F(e1v1)} (方程2)
只有当(e1v1)的兼容性大于(e1v2)的兼容性时,该公式才指定零损失。请注意,公式中的任何位置都不使用类标签。这确保了最终的嵌入不只是将类别区分向量与EEG和图像相关联,而是试图提取更全面的模式来解释这两种数据模态之间的关系。

3.1编码器的架构
将神经活动信号映射到联合空间J的脑电编码器称为EEGChannelNet,即在图2中给出的卷积网络,具有时间块、空间块和残差块,其遵循分层方法以不同步骤处理输入信号的不同维度。
时间块首先沿着时间维度处理输入信号,对每个通道独立地应用一维卷积,具有提取显著特征和减小输入信号大小的双重目的。时间块的作用是提取表征每个信道内的重要时间模式的信息。
接下来的空间块旨在通过在通道维度上应用一维卷积来寻找相应时间间隔的不同通道之间的相关性。为了阐明这一方面,请注意,大小为C×L(其中C为通道数,L为时间长度)的输入EEG信号将由时间块转换为大小为F×C×LT的张量,其中在应用一维卷积之后,F为级联特征映射的数目,LT为“新”时间维度。该张量的每个元素在时间上都不会与原始信号中的单个样本相对应,但会“覆盖”特定的时间感受场,具体取决于卷积核大小。然后,空间块对LT维度中每个元素的特征和通道维度进行操作,目的是分析相应时间的空间相关性(在多个尺度上)。与时间块相似,空间块也由多个一维卷积层组成,其输出是级联的。在这种情况下,对通道维度进行排序,以使通道的“行”(根据图5所示的10-20布局)被连续附加到信号矩阵中;然后,每个空间一维卷积以不同的内核大小运行。时间和空间块中的所有卷积层之后是批处理归一化和ReLU激活。一旦模型在时间和空间维度上独立工作,则由一组残差层组成的最终残差块对时空表征进行二维卷积,以从信号中找到更复杂的关系和表征。每个残差层在将输入加到残差之前执行两次卷积(具有批处理归一化和ReLU激活)。然后将输出提供给最终的卷积层,然后再提供具有与联合嵌入维数相同大小的完全连接层。
编码器首先经过EEG分类测试,方法是在完全连接的编码器层之后适当添加一个softmax层,以了解其从神经数据解码视觉信息的能力。然后,使用前面介绍的孪生模式对编码器进行训练。
视觉编码器θ(·)通过卷积神经网络将图像映射到联合空间J使用经过预训练的CNN提取视觉特征,并将其馈入线性层以映射到联合嵌入空间。还通过微调图像编码器以端对端的方式学习兼容性功能,以便更好地识别低级和中级视觉大脑表征,并对其进行适当的解码,以提示人们在分析视觉场景时会使用哪些信息。

2. 详细的EEG-ChannelNet架构。EEG信号首先由信道(时间块)上的一组级联一维卷积处理,然后是跨信道(空间块)的一组级联一维卷积处理。然后,通过级联残差层来处理所得到的特征,随后是最终卷积和映射到联合嵌入维度的全连接层。

4. 图像分类与视觉显著性检测
       孪生网络学习视觉和EEG嵌入,以便最大限度地提高图像和相关神经活动之间的相似性。最终可以利用所学的流形来执行视觉任务。在认知神经科学中,有越来越多的证据表明:
a)大脑活动记录包含有关视觉对象分类的信息;
b) 注意力影响视觉信息的处理,甚至在灵长类视觉皮质的最早期区域也是如此。特别地,自下而上的感觉信息和自上而下的注意力机制似乎融合在一个综合的显著性检测过程中,这反过来又分布在视觉皮层中。因此,对视觉刺激作出反应的脑电图记录应同时编码视觉类和显著性信息。
然而,对于图像分类,可以简单地使用训练的编码器作为后续分类层的特征提取器,而对于显著性检测(编者注:不知道什么是视觉显著性检测的,点击https://www.cnblogs.com/ariel-dreamland/p/8919541.html,其实就相当于眼动热图,就是强调视觉检测过程中那些视觉特征更重要),作者设计了一种基于多尺度抑制的方法,其灵感来自于识别与CNN神经元激活相关的像素的方法,该方法分析兼容性度量F(1)中的波动。
       图3是显著性检测方法,并且可以形式化如下。设(ev)是与F(ev) 相容的EEG/图像对。像素(xy)和尺度σ处的显著性值S(xyσev)是通过去除(xy)周围的σ×σ图像区域并计算原始兼容性分数与抑制该补丁后的兼容性分数之间的差来获得的。更正式地说,如果mσ(xy)是一个二进制mask,其中围绕(xy)的σ×σ窗口内的所有像素都被设置为零,则有:S(xy,σ,ev)=F(ev)−F(emσ(xy) v)(方程3)。⊙表示按元素相乘(Hadamard)。对于多个比例尺,将像素(xy)的总体显著性值设置为(每个比例尺)显著性分数的归一化和:
然后在逐个图像的基础上执行归一化以用于可视化。

3. 作者基于多尺度抑制的显著性检测。在给定EEG/图像对的情况下,通过掩蔽图像块并计算相应的兼容性变化来估计图像块的显著性。在多个尺度上对所有图像像素执行分析会产生整个图像的salience map。。
5. 视觉相关的大脑加工
虽然显著性检测方法可以研究图像中的变化如何反映兼容性分数,但更有趣的是分析神经模式如何作用于学习到的表征。事实上,当掩盖最重要的视觉特征时,可以发现兼容性的巨大差异,类似地可以期望,当从神经活动中删除“重要的”(从视觉特征-匹配的角度出发)成分时,兼容性会下降。进行这种分析传统上需要大脑信号模式的先验知识和人工分析的结合,以这种方式提出问题需要至少部分地了解所观察的加工,这使得自动检测先前未知的信号模式变得复杂。
相反,通过分析兼容性是如何随着输入信号的针对性改变而变化的,这种联合表征可以很容易地将大脑信号与视觉刺激联系起来。因此,与显著性检测相似,可以识别大脑活动中传达视觉信息的空间成分。
如图2所示,人类的目标识别是通过跨皮质区域的形状和特征信息的多级聚合来执行的,从而导致可以很容易地适应接收到的刺激上的各种任务的分布式表征。由于这些原因,了解这种分布的表征如何在大脑皮层上进行空间定位是成功模拟人类视觉系统的基本步骤。为了评估每个EEG通道(和相应的大脑区域)的重要性,采用学习的联合嵌入空间从EEG信号中“过滤”该通道并测量相应的脑电图兼容性图像和滤波后的信号。
每个通道对于单个EEG/图像对的重要性可以通过计算该对的兼容性分数与从EEG信号中抑制该通道时获得的兼容性之间的差值来测量。理想情况下,给定一般的EEG/图像对(ev),并用e−c表示e的变换以便抑制通道c上的信息,作者将通道c对于(ev)对的重要性定义为:I(e, v, c) = F(e, v) − F(e−c, v) (方程5)。这个方程表达的是抑制传递不必要信息的通道应该会导致兼容性分数的微小差异;类似地,如果一个通道包含重要信息,将大脑活动数据与视觉数据相匹配,那么当该通道被抑制时,兼容性就会下降。
实际上,由于不同替换产生不同的兼容性分数,因此很难找到信道c的单个理想替换来计算e−c。然而,在大量随机替换的c通道上平均兼容性差异会得到稳定的结果:因此,修改了方程5,当用随机高斯样本序列替换信道c时,计算重要性分数作为兼容性差异的期望值,随机高斯样本序列以100 Hz进行低通滤波,并根据原始信道的估计统计(均值和方差)分布。
更正式地说,如果将EEG信号e表示为每行一个通道的矩阵:

作者将Ievc计算为:

其中µc和σc2关注通道c的样本均值和方差,L是脑电时间长度,N(µ,σ2)N×M是从指定分布中采样的N×M矩阵,H100 Hz的低通滤波器。
最后,由于在单个EEG/图像对上计算的信道重要性分数本身对于得出一般结论可能并不重要,因此将信道重要性的定义扩展到多个数据样本上:I(c) = E(e,v)[I(e, v, c)](方程8)。其中对所有数据集样本计算期望值。

6.解码大脑表征
以前的每一种方法都研究了改变大脑活动信号或图像内容的影响,但它们的局限性在于它们提供的差异分析只在一种模式下进行,本文提供的差异分析可以识别对两个相应编码之间的相似性影响最大的视觉特征,或者可以识别大脑活动中与学习到的表征更相关的空间模式。然而,仍然不知道哪些视觉特征会引起哪些大脑反应,即神经生成器。为了填补这一空白,作者提出了一种额外的解释兼容性差异的方法,通过使用学习的流形来对脑电图通道以及相应的大脑区域进行分析,这些通道是在不同尺度上从边缘到纹理到对象和视觉概念的视觉特征检测中最常用的。为了进行这一分析,评估当图像编码器中的特定特征映射被移除时计算的兼容性分数的差异,并将相应的特征映射到当那些特征被移除时似乎最不活跃(兼容性方面)EEG通道。实际上,在给定脑电/图像对(ev)的情况下,将F(ev−lf)定义为通过抑制图像编码器的l层的第f个特征映射而计算出的兼容函数值。根据方程7给定的EEG/图像对(ev),当去除某一层的特征时,计算的通道c的重要性为:

然后,定义成对(ev)的特征(lf)和通道c之间的关联如下:
A(e, v, c, l, f) = I(e, v−l,f, c) − I(e, v, c) (方程10
如果在移除给定(ev)对的该通道的固有重要性分数之后,当该特征被移除时通道c的兼容性变化不变,这将意味着在编码表征中没有留下不匹配的视觉成分,则认为通道c和特征(lf)是相关联的。
可以通过平均通道c和层l中的所有特征来估计该层之间的关联:
A(evcl)=Ef[A(evclf)]       (方程11)
得出的分数表明在计算模型中的某一层计算的特征与大脑在特定头皮位置加工的特征有多相似。
最后,对于通道重要性分数,可以通过对整个数据集进行平均来计算一般关联分数:
A(cl)=E(ev)[A(evcl)]      (方程12)
7.实验与应用
在应用联合学习策略之前,作者首先在脑视觉数据集上测试了EEG-ChannelNet模型的EEG分类准确性,目的是研究脑电数据对视觉信息的编码程度以及脑电时间和频谱内容的性质和重要性。最后,作者希望为后续研究提供基准。评估模型学习的联合编码的质量和意义,主要目的是评估共享表征中视觉和神经内容的对应关系。
7.1 脑视觉数据集
为了检验和验证他们的方法,作者采集了6名被试的脑电数据。记录包括从ImageNet数据集中获取的40个图片类别,每个图像类具有50个图像,总共提供2000个图像。根据以下标准选择图像类:
·图像类应该是所有对象一眼就能知道和识别的;
·图像类在概念上应该是不同的,并且彼此之间应该相距很远(例如,狗和猫的类别是很好的选择,而德国牧羊犬和斑点狗不是)
·与图像类相对应的图像应该占据图像的很大一部分,并且图像的背景应该尽量简单(例如,图像中没有其他显著的或分散注意力的对象)
视觉刺激以基于组块设置的形式呈现给用户,每个类别的图像在单个序列中连续显示。每幅图片显示0.5s,在组块之间显示了一个10秒的黑屏。
收集的数据集总共包含11,964个片段;由于记录质量低或被摄对象不注视屏幕,使用预期的6×2,000 = 12,000段排除了36个片段。每个EEG片段包含128个通道,以1 kHz采样率记录0.5秒,表示为128×L矩阵,其中L500是每个通道的每个段中包含的样本数。每个信号的确切持续时间可能会有所不同,因此剔除了前20个样本(20毫秒)以减少来自先前图像的干扰,然后将信号剪切为440个样本的公共长度(以考虑L <500的信号)。
所有信号最初都经过了带通滤波。具体来说应用了5 Hz95 Hz之间的二阶Butterworth带通滤波器和50 Hz的陷波滤波器。然后对滤波后的信号进行z评分(每通道)以获得具有单一标准偏差的零中心值。使用95 Hz作为高频截止,因为高于100 Hz的频率很少具有穿透头骨的能力。图4显示了一个对象的脑电图记录的功率谱密度的示例。

4. 被试脑电记录的功率谱密度,经过5-95 Hz的带通滤波和50 Hz的陷波滤波。
5显示了EEG的位置和到大脑皮层的映射。图5还显示了本文采用的神经活动可视化尺度。通过应用方程生成图像/ EEG对的活动热图。参考图7和图8估算每个通道对配对兼容性的影响程度,然后在头皮的2D图上绘制归一化的通道重要性评分,并应用高斯滤波器进行平滑处理(对于400×400的地图,请使用标准偏差为13像素的内核)。

5. 脑电通道和大脑皮层之间的映射。
()脑电通道位置和相应的大脑皮层。使用128个通道的EEG,其中图中的每个通道由表示大脑皮层的前缀字母(FP:额部,T:颞叶,C:中央,P:顶叶,O:枕部)和一个表示电极的数字来标识。
()本文采用的神经激活可视化-头皮俯视图。颜色越接近黄色代表通道越重要

如果您对脑电及机器学习数据处理感兴趣,欢迎浏览思影科技课程及服务可添加微信号siyingyxf18983979082咨询):
第九届脑电数据处理入门班(重庆,9.22-27)
第二十二届脑电数据处理中级班(南京,11.12-17)

第七届脑电信号数据处理提高班(南京,11.18-23)

第十二届脑影像机器学习班(重庆,11.11-16)

思影科技EEG/ERP数据处理业务

思影科技脑电机器学习数据处理业务
7.2 模型实现
在时间块中使用5个卷积层,卷积核大小递增(124816),在空间块中使用4个卷积层,核大小从128(即,包括所有EEG通道)16,按2的幂缩小。请注意,在这两种情况下,卷积层不级联处理输入,而是并行应用,并且相应的输出沿特征维度级联。相反,下面的残差块包含四个连续的残差层,最终导致非残差卷积和投影到大小为1000的联合嵌入空间的全连接层。图2(底部)根据层参数和功能地图大小显示了体系结构的详细信息。为了有效地实现时间和空间上的一维卷积,作者将输入的EEG信号处理为大小为1(特征图)×128(通道)×440(时间)的单通道二维“图像”,并应用一维核等于1的二维卷积(即,时间层为1×K,空间层为K×1)。最后,请注意,在时间和空间块中使用了填充值,以便每个层的输出具有相同的大小串联维度。
7.3 EEG分类
作者的第一个实验旨在评估EEG编码器所采用的架构是否能够从脑电图信号中提取视觉相关信息,以及额外的数据后处理(频率滤波、时间子序列)是否会影响性能。为此,他们自行训练脑电信号编码器对脑电信号进行视觉分类。请注意,这可作为EEG编码器体系结构的验证过程,并作为与其他现有模型的基线比较。这并不是对EEG和图像编码器完全联合嵌入的任何形式的预训练,而是为了证明EEG携带视觉信息。
为了运行这个实验,作者将Softmax分类层添加到EEG-ChannelNet体系结构并训练整个模型以估计对应于每个EEG信号的视觉类别。使用建议的超参数(学习率:0.001,β10.9,β20.999)和最小批处理量为16Adam优化器,进行100分段的训练。作为分类精度,报告了当达到验证集上的最大精度时,在训练时段测试集上获得的准确率。此外,还报告了在某些频率子带上进行训练以及仅使用部分原始信号时所获得的结果。
EEG信号包含几个频率,这些频率通常被分成五个频带:delta (0-4 Hz), theta (4-8 Hz), alpha (8-16 Hz), beta (16-32 Hz) and gamma (32 Hz to 95 Hz;该频带还可以进一步分为以55 Hz为界的低频伽马和高频伽马。伽马被认为负责认知加工,高频伽马(55100赫兹)负责识别对象(工作记忆)和注意力的短期记忆匹配。考虑到这一点,实验设计应该会在被试中引发高伽马效应。因此还计算了仅选择上述频段时的性能:表1中给出的结果显示,在高伽马频率上获得了更高的性能,这与认知神经科学文献中关于视觉任务中涉及注意力、工作记忆和知觉加工的文献结果是一致的。根据这些结果,以下所有评估都是通过应用55-95 Hz带通滤波器进行的。

1.使用不同EEG频段的EEG分类准确率
然后,当使用EEG信号的整个时间进程和一组时间EEG子序列(大小为220ms330ms440ms)时评估性能,以了解神经响应何时导致最强的分类性能。在20-240ms(39.4%)240-460ms(38.9%)之间的表现几乎相当,这可能表明在最初的低水平视觉特征提取阶段和更多的认知特征传递到不同抽象水平阶段的重要性是平衡的。加上最后110ms使性能提高了5个百分点(20-350ms vs20-460ms),这意味着更多的认知操作对学习到的特征进行了进一步的细化,从而增强了分类;这也符合神经认知文献中关于基于事件相关电位(ERP)的实验的结果。最后,使用55-95 Hz的高频伽马频段数据,将EEG编码器与其他最先进的方法所实现的分类性能进行了比较。表2中给出了测试部分的EEG分类准确度。实验结果表明,该方法的平均分类正确率为48.1%,优于EEGNet等最高分类正确率仅为31.9%的方法。

2. (顶部):在[55-95]Hz频段过滤数据的情况下,使用不同的EEG时间间隔进行EEG分类的准确性

7.4 用于分类的孪生网络训练
在这一节中,作者描述了孪生网络的训练过程,并评估了学习的联合嵌入的质量。特别地研究了:
a) 两种脑电信号和图像编码器的配置能在脑电信号和图像分类之间提供最好的平衡
b)一种模态的分类器相对于另一种模态的调节分类器如何影响分类精度,以及c)是否利用来自大脑的特征来扩大视觉表征空间会比仅使用视觉特征的最新方法产生更好的性能。
通过采样一个EEG(ei)和两个图像(vivj)的三元组(eivivj)来训练孪生网络(EEG和图像编码器),代表正样本(eivi)和负样本(eivj)。与纯分类实验类似,作者使用了一种带有超参数的Adam优化算法来处理对比损失,最小批处理量为16,训练周期数设置为100
还测试了图像编码器的不同配置,以调查所获得的结果是否独立于底层模型。特别地,使用不同的图像分类主干作为特征提取器,即ResNet-101DenseNet-161Inception-v3AlexNet所有这些模型都首先在ImageNet数据集上进行预训练,然后在孪生网络培训期间进行微调。通过为与给定EEG样本相关联的图像生成多个裁剪尺寸来执行数据增强。特别地,将每个图像的大小相对于图像编码器的预期输入大小调整为其1.1(对于Inception-v3299×299,对于其他版本为224×224)。然后从输入图像的四个角和中心提取10个对象,并进行相应的水平翻转。
一旦训练完成,使用训练好的脑电和图像编码器作为联合嵌入空间中的特征提取器,然后是Softmax层,用于图像和脑电信号的分类。分类任务提供了一种评估多模态学习方法的质量的方法,并允许作者基于验证集的准确性确定最佳编码器的布局。卷积层数、层大小、滤波器数、流形大小的特定值。
3显示了获得的所有测试模型的EEG和图像分类精度。注意,所有配置都受益于联合嵌入学习,并且实现了与在标准监督分类场景中单独训练EEG编码器时相当或更好的分类精度。

3. 对于不同布局的图像编码器,采用联合学习方法获得脑电和图像分类精度。
接下来,测试一种模态对另一种模态的影响,即联合学习基于大脑活动的特征和视觉特征的效果相对于训练单模态模型的效果。首先比较了单独使用预训练图像编码器和使用联合嵌入方法对图像进行微调后得到的图像编码器的分类性能。作者提出的模型和预先训练的视觉编码器都被用作特征提取器,然后是Softmax层,性能是在所采用的视觉数据集的测试部分计算的。请注意,由于ImageNet中包含了40个目标图像类,因此预先训练的视觉编码器先前已对它们进行了训练。因此,作者简单地使用联合嵌入学习进行微调,即训练预先训练的视觉编码器来最大化视觉和脑电信号内容之间的相关性,而不是基于分类本身。表4表明最大化EEG-视觉相关性的学习功能可提高所有模型的性能。(AlexNet是图像编码器时,增幅最大。这很可能是因为其他模型足够复杂,足以“饱和”分类能力(即存在天花板效应),也就是说这些模型对于单模态中特征的学习已经达到了足够有效的分类能力,来自于神经信号的特征没有明显地提高他们的分类表现)

4. 仅使用一种模态(图像或脑电图)相对于使用联合神经视觉功能时的图像和脑电图分类性能的比较。对于每种模型,根据表3报告最佳性能。当使用Inception-v3训练图像编码器时,实现了本文方法报道的EEG分类性能。
类似地,作者或将脑电信号的分类精度与第三节中描述的脑电信号编码器以及联合神经视觉学习获得的脑电信号编码器进行了比较。结果在表4中给出,表明在EEG分类中增加视觉特征可将性能提高约12个百分点。因此,提出的联合学习方案使我们能够使用最新技术(见表2)将脑电分类从48.1%提高到60.4%。
当图像分性能类较低时(即,分类精度尚未达到上限),EEG信息的加入提高了性能。这可能表明,当人类分类准确度远高于模型分类准确度时,神经数据可能帮助更大。
7.5显著性检测
在先前的实验中,作者证明了学习的EEG/图像嵌入能够编码足够的视觉信息,以执行脑电分类和图像分类。现在,使用第4节中介绍的方法研究共享大脑视觉空间是否以及如何与视觉显着性相关。作者测量了经过训练的编码器和各种图像像素之间的兼容性如何变化。方程3σ参数的值设置为359173365像素。注意,该评估不需要任何额外的训练,直接基于与7.4中所述相同的EEG和图像编码器。
在此分析中,使用了通过60Hz Tobii T60眼动仪记录了上述六个被试眼动数据,这些眼动数据是在上述EEG数据采集的同时进行的。将这些数据用作显著性检测数据集,并将图像分为与EEG分类实验相同的训练、验证和测试部分。作为基线对比,作者使用了预先训练的SALICONSalNet模型,它们在数据集的训练数据上进行了微调。另外,为了证明EEG确实对视觉显着性信息进行了编码,并且所生成的地图不是简单地由图像编码器驱动的,作者使用了预训练的Inceptionv3视觉分类器,因为它产生了更好的分类性能(请参见表3)。然后,采用相同的多尺度像素抑制方法,但是在这种情况下,显著性评分不是基于兼容性,而是基于图像正确类别的对数似然变化。即对于给定图像v并用pv)表示由预先训练的Inception-v3网络估计的v的正确类别的对数似然,在像素(x,y)处的显著性值为Sclassifierxy,σ,v),尺度σ的计算公式为:
Sclassifier(x, y, σ, v) = p(v) − p(mσ(x, y) v)
mσ(xy)与前面描述的一样,v是移除(xy)周围的σ×σ区域的结果。并且在这种情况下,在特定位置计算的显著性值是多个尺度上的归一化总和。
6定性地显示了通过模型获得的显著性图,相对于最先进的显著性检测器。作者还通过计算曲线下混合区域(shuffled area under curve , sAUC)、归一化扫描路径显著性(NSS)和相关系数(CC)分数来定量评估由联合嵌入驱动的显著性检测器生成的显著性图的准确性。
5报告了显著性检测方法所取得的结果,结果表明:
a)作者的方法比基线显著性检测器性能更好;
b)联合神经/视觉特征的贡献提高了单独的视觉特征的性能。重要的是,这表明联合嵌入方法比任何其他测试的显著性方法或单独的视觉分类更能解释人类被试在自由观看期间注视的区域还值得注意的是,作者使用的方法产生最大改进的度量是NSS,它与EEG信号的性质最相关,与注视扫描路径相关。

6. 对生成的显著性图进行定性比较。

从左至右:输入图像、人类视线数据、SALICONSALNET、视觉分类器驱动检测器和作者的视觉/脑电图驱动检测器。可以注意到,a)文中的方法生成的地图比最先进的方法更接图像的真实边界;b)将大脑活动信息添加到视觉特征中,从而显著性计算(比较第5列和第6列)的重构效果得到改善(更多细节,更少噪声)。

为了了解显著性是如何随时间演变的,作者还评估了不同的脑电信号时间子样本在显著性地图上的重要性。7显示测试了各种时间范围(20-240毫秒、130-350毫秒和240-460毫秒)的显著性。随着时间的推移,被试似乎会关注图像的不同部分。有趣的是,早期的视觉注意似乎更多地受到颜色对比度和边缘等视觉特征的控制,而后来的研究表明,注意力倾向于更多地指向上下文或图像类别(即观察者最感兴趣的对象)
这与人类的视觉注意理论相吻合,即早期,注意力是由颜色、亮度、方向和边缘检测等基本视觉特征驱动的早期自下而上的无意识加工主导的;而后来,注意力是由自上而下加工驱动的,这使得观察者偏向于展示情境的区域,并且由于任务要求而有意识地吸引注意力。此外,显著性随时间的变化表明,人类也关注基本的视觉特征以及上下文。这与人类的对象分类是基于对象和上下文特征的组合的想法是一致的。最后,图8表明,使用大脑和视觉特征导出的显著性与视觉识别所需的特征没有严格的联系。例如,在图8的第一行中,ImageNet类是“手机”,但是导出的显著性更多地集中在婴儿身上。所有研究的例子都是如此。

7. 在不同时间对显著性检测进行定性评估。
从左到右:输入图像,使用时间范围[20240] ms中的EEG数据进行显著性检测,使用时间范围[130350] ms中的显著性检测,使用时间范围[240460] ms中的显著性检测,以及使用整个EEG时间进程,即[20460] ms的显著性检测。可以注意到,从一开始,显著性就更侧重于局部和全局视觉特征,而后侧重于上下文,并最终侧重于感兴趣的对象。最后一栏将所有贡献整合到一个显著性图中。
7.6解码大脑表征
这项分析的目的是形成近似皮层水平表征的空间分布:事实上,尽管人类视觉通路的分层多阶段架构是已知的,但在每个阶段产生的表征却鲜为人知。本实验粗略地分析了神经活动与图像之间的全局交互,精细地分析了神经活动与深入的视觉特征之间的交互作用。这一过程使我们能够识别哪些神经区域是最有信息量的。虽然仅靠脑电图不能准确地分离底层皮层,但这个过程指向联合表征的时间和空间成分,这些成分与视觉线索相关。当然,这种分析纯粹是定性的,因为没有“正确”或明确的答案。然而,重要的是要验证生成的表征在直觉上是有意义的,并且与从神经认知角度来看可以预期的一致。

8.脑源性显著性检测的例子。在所有情况下,ImageNet(从上到下:“手机”、“马克杯”、“香蕉”和“披萨”)都不同于人类观察者更关注的对象。我们报告了图6相同时间范围内的显著性。请注意,所有四幅图像都被采用的视觉编码器(Inception-v3)正确分类。

7.6.1 皮层-视觉表征的全局分析
       这个实验的目标是通过应用方程5来识别EEG通道和视觉内容之间的高级相关性。它评估当每个EEG通道被抑制时平均兼容性如何变化。9显示了每个图像类的平均激活图的一些示例。这些是通过对每个类别的所有图像的通道重要性得分进行平均来获得的。为了显示EEG的时间和空间激活之间的关系,图10通过评估将EEG信号限制到特定时间间隔时的通道重要性,显示了所有类别上的平均激活图。

9. 每个视觉类别的激活映射。数据集中40个可视类别中某些类别的平均激活图。

10. 平均激活图(左图)。所有图像类的平均激活图(右图)。不同时间范围内的平均激活。

从这些结果可以得出一些有趣的结论:
1) 所有的视觉类别都严重依赖于早期视觉区域,包括负责早期视觉加工的V1皮层,这一区域在所有测试的时间窗口中都是重要的;
2) 随时间的平均激活图清楚地表明,这一过程始于早期视觉区域,然后流向额叶区域(负责较高的认知功能)和颞区(负责视觉分类)
       3)激活模式随着视觉内容的改变,例如“钢琴”或“电吉他”视觉分类,激活更接近听觉皮质的头皮区域(头皮的最左边和最右边的区域),这与声音的感觉通常与视觉有关的证据是一致的。

7.6.2 随时间推移从皮质视觉数据中提取神经表征
这项最终分析的目标是探索DCNN(即深度卷积网络模型)的不同层面,并将它们与联合EEG/视觉数据、随时间推移和头皮位置相关,以检查负责给定神经激活的低层和中层视觉表征。为了完成这一任务,作者使用学习的兼容性度量来发现深层特征和产生活动的头皮区域之间的相互对应关系。
使用方程12定义的关联分数研究了视觉信息的神经编码,通过推导最大限度地响应深度学习的视觉特征的神经激活映射来研究视觉信息的神经编码。11按照表3显示了与最佳性能图像编码器的特定层相关的关联分数的激活图。这一分析采用了在编码器训练期间根据大脑/图像数据集微调的预先训练的初始网络。对于每个特征/神经关联,作者通过在应用方程12时将每个间隔馈送到EEG编码器来测量EEG的不同时间部分对大脑活动的相对贡献。
在这种情况下,与图10中的表征不同,作者对大脑皮层区域之间的激活差异不感兴趣。因此,会计算所有渠道上的平均非标准化关联得分,并将其用作衡量各层特征与EEG激活的每个部分之间关联程度的量度。通过使用所有这些信息探究潜在的神经表征,与该表征及其时机相关的头皮上的空间位置。结果表明,DCNNs中的分层表征与人类视觉通路中的分层加工阶段紧密相关。特别是在最底层,生成了简单的纹理和颜色特征,它们与V1附近的早期可视区域相对应。转到DCNN中的更深层,我们看到激活从早期视觉区域传播到时间区域,然后又传播回早期视觉区域。而且,更复杂的特征(在更高的层)会受到稍后发生的活动的影响。已知的编码基本视觉特征的早期视觉区域对应于也编码简单视觉特征的早期DCNN层,而产生更复杂的类级表征的较晚层似乎对应于较晚的EEG时间窗。脑电活动的时间和相关的DCNN层与认知神经科学文献中已知的分层对象加工流是一致的。这种一致性表明模型已经产生了人类大脑表征的可靠近似值(这才是这篇文章最重要的发现)。有趣的是,作者观察到在100-200ms的时间窗口中,联合EEG激活和DCNN层之间的关系持续下降。重要的是,这个时间窗口的结束对应于从(主要)知觉加工到(主要)更高阶、认知和递归加工的公认的转变。这表明与已知的人类神经加工之间存在逻辑关系。或者,这可能源于视觉认知加工重新定位到更深的皮层区域,这些区域通过EEG不易检测到,随后反馈活动到视觉通路的初始区域。

11. 与从DCNN层提取的特定视觉表征相关的大脑活动。每行显示来自图像编码器中的特定层的一组特征图、与该层的特征具有最高关联性的神经活动区域以及EEG信号中的不同时间范围对关联性分数的贡献。可以注意到,随着特征复杂度的增加,激活的大脑区域从V1视觉皮层(枕区)移动到IT皮层(颞区)此外,EEG信号的初始时间部分似乎与更简单的特征更相关,而更复杂的特征与后来的时间动力学之间存在更强的关联。
8.结论
在这项工作中,作者ben所学习的嵌入使该表征在执行脑活动监督下,可用于执行多种计算机视觉任务。实验表明,神经活动可以可靠地驱动图像分类和显著性检测方法的性能提升。除了推进与脑引导图像分类相关的工作之外,作者的方法还提供了一种从EEG数据中提取神经表征并将其映射到最重要/最显著的视觉特征的方法。
尽管从这些发现中得出一般的认知神经科学结论不是这项工作的主要目标,但鉴于认知实验的规模还很小,文章提出了一种基于AI的策略,该策略似乎可以产生可靠的大脑表征及其相应的头皮活动近似值,通过共同学习使神经活动与视觉图像之间的相关性最大化的模型。将来这项工作的自然扩展是进一步研究这些关联,以期发现EEG信号与视觉模式之间的更好对应关系,例如,通过识别大脑活动中与特定对象,模式或类别相对应的不同反应,具有不同的特异性。作者认为将人工智能(通过开发更复杂的方法)和神经科学(通过更多量身定制的大规模实验)相结合的联合研究努力是必要的,通过研究大脑加工如何与人工模型结构相关,进而利用未发现的神经动力学提出新的神经结构,使计算模型更接近人类的感知和认知表现。
综上所述,本文提出的学习大脑加工并将其与视觉线索在时间和空间上相关联的方法产生了两方面的贡献:
·人工智能。引入了新的模型来解码与视觉任务相关的EEG信号,具有最先进的性能,并以生物学上可信的方式进行解码。此外,作者的方法允许自动识别与人类神经活动一致的计算特征,这代表了帮助解释人工智能模型的新方向。
·认知神经科学。作者的方法是朝着为认知神经科学家提供基于AI的方法来理解时空神经反应的方法迈出的一步,而无需设计针对多被试和多试次的实验。当设计出高度精确的人工智能时,它将允许认知神经科学家模拟人类的反应,而不是收集大量昂贵的数据。
 
如需原文及补充材料请加思影科技微信:siyingyxf 或者18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。觉得对您的研究有帮助,请给个转发,以及右下角点击一下在看,是对思影科技莫大的支持。

微信扫码或者长按选择识别关注思影

非常感谢转发支持与推荐

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型
深度学习在电力信息化领域的研究现状及展望
浙江工业大学教授王万良:人工智能深度学习困惑 让数据自己发声
直观理解深度学习卷积部分
CNN简单介绍及基础知识
追根溯源!一图看尽深度学习架构谱系
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服