打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
基于功能磁共振成像数据的机器学习对精神分裂症进行分类
      功能磁共振成像能够估计人脑中的功能激活和连通性,近年来随着机器学习技术的发展,人们热衷于将这些功能模式与机器学习相结合用于识别精神病特征。尽管这些方法具有更好地理解疾病过程并完成早期诊断的巨大潜力,但除非谨慎考虑,否则在各种各样的处理选择中的陷阱可能会严重影响解释性和泛化性。本文的目的是促进机器学习在精神分裂症研究中的更好使用。为此,我们在介绍最佳实践和程序的同时描述了常见的数据处理步骤。首先,我们介绍了精神分裂症对激发可靠分类的重要性,并总结了现有的关于精神分裂症的机器学习文献。然后,我们描述了基于fMRI数据的特征提取过程,包括统计参数映射,复杂网络分析和分解方法,以及最重要的支持向量分类和深度学习的分类。我们将在补充材料提供更详细的描述和分析软件的支持。最后,我们提出了用机器学习方法对精神分裂症进行分类所面临的挑战,并对未来的趋势和观点进行了讨论。本文发表在Schizophrenia Bulletin杂志。可添加微信号siyingyxf18983979082获取原文及补充材料
       思影科技曾做过多期关于脑影像机器学习文献的解读,如感兴趣可点击以下链接浏览:

使用多元表征方法提升对大脑-行为之间关系的机器学习研究的泛化


用于临床心理学和精神病学的机器学习方法


PLOS Biology:重度抑郁症多成像中心的泛化脑网络标志物


Nature Medicine:持续的实验性和临床性疼痛的神经影像生物


深度学习在婴儿大脑的磁共振图像分析中的作用(上)


参数选择对脑卒中后失语症预测模型的影响


大脑数据分类时意外过拟合的危险


IEEE Signal Processing Magazine:从手工放射组学特征到深


机器学习在静息态功能磁共振成像中的应用

 

有监督机器学习在系统神经科学中的作用


使用多模态脑部扫描数据的自动脑肿瘤分割


Radiology:脑部MRI影像组学:转移瘤类型预测的应用


神经放射学诊断中的MRI数据分析


AJNR:深度学习在神经放射学的应用


Neuro-Oncology:对脑胶质瘤IDH突变状态进行分类的一种新型的


Neuro-Oncology:深度学习算法全自动评估脑胶质瘤负荷


Lancet Oncology:利用人工神经网络对神经肿瘤学MRI成像进行


AJP:精神分裂症患者大脑加速老化的纵向识别研究


Nature Protocols:为解释神经成像中的机器学习模型


Biological Psychiatry: 基于多模态脑影像的个体指标预测-方法


BRAIN:基于全球14468名被试MRI数据特征预测脑龄和疾病


Biological Psychiatry:自闭症的神经亚型研究进展


PNAS:灰质年龄预测作为痴呆风险的生物标志物


BRAIN:用于阿尔茨海默病分类的可解释深度学习框架的开发

异质性问题:识别精神疾病亚型的方法

Radiology:人工智能系统脑MRI鉴别诊断精度接近神经放射科

NPP:结构MRI数据的生理性别分类显示跨性别者女性的错误分

利用功能连接对脑疾病进行分类和预测

基于脑影像的精神疾病预测

基于影像学和定量感觉测试预测慢性疼痛的治疗结果

深度学习在医学图像分析中的应用

BRAIN:利用机器学习揭示了两种精神分裂症的神经解剖学亚型

识别最优的数据驱动特征选择方法以提高分类任务的可重复性

Neuron脑影像机器学习:表征、模式信息与大脑特征

Molecular Psychiatry:静息态fMRI预测青少年认知能力

JAMA Psychiatry:脑影像机器学习预测精神疾病患者社会功能

AJP:基于脑网络的可卡因戒断预测


基于机器学习的情绪障碍诊断:功能网络预测药物反应


脑影像特征预测散发性阿尔茨海默病症状发作时间


背景介绍
      精神分裂症的研究已经在精神病学和心理学领域引起了广泛关注,最近的发展和对神经成像机器学习关注的增加导致计算精神病学显示出了良好的应用前景。从理论上讲,精神分裂症已被概念化为精神分裂症谱系障碍的一个重要表型。两个竞争理论——准维方法(the quasi-dimensional)和全维方法(the fully dimensional  被提出来模拟精神分裂症的结构。准维方法提出了这样一种观点,即精神分裂症在一般人群中是不连续的,是不连续分布中的独立观测点。但是最近的研究表明,这种表型是沿连续整体分布的,从心理健康到全面的精神疾病数据,都支持强调连续性的全维方法,与精神分裂症患者相比,具有精神分裂症特征的个体在认知、情绪和神经功能方面表现出相似但减弱的损伤。同样,这些分裂型表型的表现在时间和环境上都是稳定的。
      受到精神分裂症精神病神经发育模型的影响,英瑟尔进一步划分了四个阶段,从风险到慢性残疾。这个四阶段的假设强调了早期风险阶段对于理解心理病理学以促进精神病和精神障碍的早期发现和干预策略的重要性。尽管精神分裂症并未明确包含在模型中,但是在认知,情感和社会障碍方面仍存在重要的相似之处。这一点有助于通过在一般人群中呈现的人格特征理解精神分裂症谱系障碍的精神病理学。
     最近,精神分裂症已被概念化为一种现象,远远超出了精神分裂症谱系障碍的范围。这些作者认为,对精神病感兴趣的研究人员主要遵循狭隘的研究途径,侧重于精神病表达的分子,神经生理,环境和文化相关性,或研究与精神分裂症的极端表现有关的潜在内表型。但是,在精神分裂症患者中观察到的独特情感和社交表现实际上可以提供对人类整体功能不可或缺的情感和社交系统本质的观察。
      例如,来自功能性神经影像学的发现表明,与常人相比,社交性快感障碍的人在情感刺激延迟任务的预期阶段左枕部、屏状核和岛叶对正向刺激表现出明显的负激活。纵向研究还表明,具有分裂型特征的个体具有独特的发展轨迹,而不一定会发展为成熟的精神病。最近,Wang等确定了精神分裂症的4条轨迹;包括2个稳定组和2个反应组。“稳定组的低分裂型和高分裂型”分别表现出最佳和最差的临床和功能结果。“高反应型精神分裂症”组的特征是功能相对较快下降,而“低反应型精神分裂症”组的特征是在评估基线时得分较低,但逐渐恶化。这些发现表明,即使在精神分裂症表型的非临床样本中,也可以观察到与精神分裂症临床患者相当的相似亚型和轨迹。这突显了纵向追踪精神分裂症的重要性。
      一些研究已经应用神经影像学数据来研究与精神分裂症有关的神经生物学变化,报告了结构和功能的变化。例如,结构研究发现,精神分裂症的许多已知区域都会发生灰质体积变化,例如前额叶,颞叶和皮层扣带回,以及脑岛和皮层下区域。这些研究表明,在精神分裂症谱系中,大脑皮层的变化存在于一个连续的维度上,并且很可能发生在精神病病理学发作之前。此外,在比较具有不同精神分裂程度的被试或重度精神分裂症患者和普通对照时,使用功能磁共振成像(fMRI)来进行社会认知的研究,也报告了相似的区域性大脑激活变化。最后,功能连通性研究发现,与精神分裂症患者的网络变化相似,例如纹状体,内侧前额叶皮层(PFC),前扣带回(ACC)和脑岛之间的连接性改变。重要的是,几乎所有上述研究都在精神分裂症的正面和负面维度上报告了不同的结果,这表明精神分裂症的异质性。
      以上发现强调了精神分裂症在精神病学和心理学中的重要作用。一方面,分裂型被认为是精神分裂症的特征标记,研究精神分裂症的行为和神经生物学基础可能有助于我们理解精神分裂症的潜在心理病理学。这表明精神分裂症可能是研究精神分裂症谱系障碍的重要表型。另一方面,精神分裂症可以作为一个独特的实体来检查人类潜在的情感和社会系统。因此,对这种表型进行分类的更好方法对精神分裂症学者极有意义。然而,据我们所知,只有很少的研究基于神经影像数据来识别精神分裂症。机器学习方法可以弥补这一知识鸿沟,并有助于阐明处于精神分裂症初期的高危人群的神经生物学异常。
 
精神分裂症和精神分裂症领域的机器学习
      机器学习的总体目标是使计算机对数据进行分类,而无需对其进行明确的编程。通常,在有监督学习和无监督学习之间进行区分。前者是指使用带标签的数据进行学习,目的是将分类模型泛化到带有未知标签的数据。相反,无监督学习方法探索未标记数据中的统计依存关系,其目标是学习数据中的结构,并可能将数据聚类为不同的类。
      近来,机器学习方法已被用作基于神经影像的工具,以自动将精神分裂症谱系障碍患者与健康人区分开为目的。经验发现表明,这些方法能够对健康人中的精神分裂症患者进行分类,准确率在75%至98%之间。此外,最近的研究已经成功地使用支持向量分类(SVC)来预测超高风险个体向精神病全面发作的转变,并分类为转换和非转换。目前部分研究已经对疾病发作前的各个阶段的人进行了调查。至于使用机器学习方法研究精神分裂症,已经进行了一系列研究,探索了与精神分裂症有关的神经机制,并根据不同的人群对个体进行了分类。 2006年,Shinkareva等人使用来自情感任务的fMRI数据,使用脑激活的差异图对阳性分裂症和控制水平较高的个体进行分类。出于同样的目的,Modinos等人对情绪任务的大脑激活图进行了SVC发现了高阳性分裂型个体的情绪回路的改变,包括杏仁核、ACC和内侧PFC
      为了进行比较,他们还进行了单变量的统计检验,但未检测到任何类别差异,表明使用多变量方法对风险人群的细微变化增加了敏感性。从精神分裂症的“全维”模型的角度来看,Wiebels等人用偏最小二乘方法证明了精神分裂症不同方面与灰质体积变化之间的关系。
      此外,两项研究分别探讨了亚临床抑郁症患者和超高危人群的精神分裂症评分。首先, Modinos等人在对亚临床抑郁症状的个体和健康对照进行分类时,发现精神分裂症的正向维度与SVC权重之间存在显着相关性。其次,在一项纵向研究中,Zarogianni等人应用SVC将超高风险人群分为转化者和非转化者。尽管本研究主要使用结构性MRI数据,但结果表明,将精神分裂症评分添加到分析中可提高分类性能。最后,除fMRI外,其他神经影像学方法也已经开始使用机器学习方法研究精神分裂症。例如,在Jeong等人的研究中,在视听情绪感知任务中利用EEG测量的与事件相关的电位用于对具有精神分裂症和对照的个体进行分类。
      总而言之,利用机器学习对精神分裂症进行的研究在增进我们对精神分裂症的理解方面显示出巨大的前景,并且与早期发现和潜在的干预措施极其有益。机器学习方法的主要优势是,由于能够了解多模态神经影像数据中精神分裂症可能的复杂表现,因此与基于标准单变量统计的同类方法相比,它们可以提供更高的敏感性。现有研究仍受到小样本量的限制(每组n = 7-18),并且存在报告的分类率与观察到的样本过拟合的风险。这突出了拥有足够大样本量和分组均衡的重要性,以实现足够的学习并确保训练数据的代表性。此外,更重要的是,未来的研究应侧重于对现有结果进行独立验证,以确保研究结果可推广到整个人群。

分类和特征提取方法
      在神经影像研究中,fMRI数据主要用于测量孤立的大脑区域的激活变化,或估计跨区域的功能连接性(网络耦合)。由于fMRI数据以有限的时间点和相对较高的空间分辨率进行记录,因此激活模式的估计,尤其是连接性的估计实际上非常不稳定。因此,通常考虑降低维度的方法来提高估计的功能激活的稳定性。虽然在本文中,我们关注于功能磁共振成像的特征,但是分类程序很容易推广到其他模态和多模态设置。

1.分类。面板A的第一行显示了如何在神经影像数据上训练分类模型。第一种特征提取方法获得的特征可用于训练基于已知标签的样本上的分类模型。一旦训练了分类模型,就可以将其应用于从未知标签对象中提取的特征(使用相同的过程)。*原则上可以省略特征提取步骤。但是,实际上,对于许多成像模式(包括fMRI),由于输入数据的高维度而导致的过拟合将不利于分类性能。
       面板B提供了二维特征空间中的线性软边界SVC算法的说明。 SVC通过找到使边界最大化的分离超平面,该超平面仅由支持向量定义,该向量是位于边界上的样本(用圆圈标记)。软间隔SVC通过为每个错误分类的样本(用虚线标记)引入松弛变量来避免错误分类,从而避免过度拟合(能够尽可能地将数据类别分对,又要使得支持向量到超平面的间隔尽可能地大)。训练SVC时,可以根据超样本所在的超平面的侧面来估计新样本的标签(标记为灰色)。 

      在神经成像领域使用监督学习时,其目的通常是仅根据测量结果确定对象的分类标签, 如图1所示的成像数据(例如,记录的fMRI数据),该过程也称为分类。在监督分类中,通过在训练数据中的已知标签下进行区分训练从而获得一个具有高分类性能的模型,随后使该模型能够应用于没有给定标签的数据以预测实际标签。

      给定一个标记的数据集,可以使用交叉验证(CV)来确定分类性能。准确性(正确标识类别标签的比率)通常用作衡量模型表现的指标。但是,这不能提供对性能的完整描述,敏感性(也称为真实阳性率或召回率)和特异性(真实阴性率)也是同样重要的指标。为了测试所获得的分类率是否显著,通常针对参数或经验零分布来测试真实性能。如果分类步骤考虑了几个单独的分类程序,则在评估显著性时应对多个比较进行校正。

      可以将CV(交叉验证程序视为临床环境的模拟,其中假定一组受试者(测试组)的标签未知,并可以通过对其余受试者(训练组)进行分类算法的训练来进行估计。一种常用的方法是留一CV。整个过程中只有一个对象构成测试集,并且针对每个对象重复该过程,如图3所示。通常在数据量较小的情况下,最好采用“留一法”方案,因为它通过保留用于模型训练的最大数据量来最大程度地减少模型偏差,但是缺点是存在过拟合训练数据的风险。因此,有时也会选择其他方案,例如K折(将数据划分为K个非重叠的拆分)CV。这些功能通过检查已识别模型在拆分之间的变异性,可以测试模型的稳定性。一个示例是分半验证方法,通过将数据随机多次分为独立的两份可以来测试模型重现的稳定性。

2. 4种功能磁共振成像特征提取方法的示意图。
面板A说明了单变量的统计分析,其中有关实验设计的信息用于使用一般线性模型测试每个体素中的显著激活。
面板B概述了复杂的网络分析。在这里,通过确定脑区之间的功能连接性,然后使用图论方法进行分析,可以得出脑网络存在差异的连接。
在面板C中,说明了基于种子点的功能连接方法,此处提取了来自特定大脑区域的时间序列,并将其与大脑的其余部分做相关。
在面板D中,显示出了独立成分分离方法,其中将fMRI数据分解为具有相应时间序列的空间独立分量

      原则上,可以直接在原始神经影像数据上训练分类算法。但是,由于与小样本的数量相比,数据具有较高的维数,因此输入数据在高维空间中将显得稀疏,通常称为维数诅咒。反过来,这导致分类程序过于专业化,并且对测试数据的概括性很差,这种现象称为过拟合。

       因此,通常使用两步过程对分类进行处理,在该过程中,首先识别与分类相关的特征(请参见特征提取步骤,如图2中所示)。然后用于训练分类算法。特征提取步骤可能包括特征选择,在其中选择特征以进行进一步训练。需要注意的是,特征选择仅应使用训练数据集中的标签,否则会影响性能评估,并可能导致过拟合。因此,嵌套的CV方案(其中使用附加的独立测试集来估计最佳特征或其他自由参数)可能是有利的。过拟合可以通过自动特征选择方法和整体学习方法来缓解。例如前向选择,后向消除、递归特征消除,决策树和随机决策森林等。此外,还有一些工具箱,包括scikit-learnNilearn PRoNTo pyMVPA,以及Koutsouleris等人使用的NeuroMiner toolbox 等都是针对神经影像的机器学习量身定制的工具包,并提供了用于自动特征选择的工具。

3.留一法交叉验证。该图说明了留一法 LOOCV 程序。对于每个被试,把排除该特定被试的数据集用来训练分类模型。然后,该模型用于估计被试的分类标签。对每个被试重复此过程,以提供分类效果的无偏估计。注意,其他CV方案(包括更复杂的嵌套CV)也是类似的。

      在特征提取之前,适当的预处理步骤非常重要,因为受伪影污染的数据不仅可能导致分类性能不佳,而且可能会导致结果解释困难。例如,如果运动伪影在一组中更占优势,则分类器可能会专注于运动伪影并获得良好的分类性能。

      在以下各小节中,我们介绍了一些常用的特征提取过程,尽管本文未涵盖,但仍存在其他方法,包括fALFF,和估计区域信号同质性的方法(即Reho)。

如果您对脑影像机器学习等感兴趣,欢迎浏览思影科技课程及服务可添加微信号siyingyxf18983979082咨询):

第十六届脑影像机器学习班(上海,7.23-28)


第十八届DTI数据处理班(上海,7.2-7)


第八届小动物脑影像数据处理班(上海,5.6-11)


第四十二届磁共振脑影像基础班(上海,6.5-10)


第二十届脑网络数据处理班(上海,5.12-17)

第一届脑网络数据处理提高班(上海,5.22-26)


第三届DWI数据处理提高班(南京,5.17-22)


第九届任务态数据处理班(北京,5.27-6.1)


第十四届磁共振脑影像结构班(北京,7.10-15)


第四十三届磁共振脑影像基础班(南京,7.1-6)

第四十一届磁共振脑影像基础班(重庆,5.9-14)

第十三届脑影像结构班(重庆,6.8-13)


数据处理业务介绍:

思影科技功能磁共振(fMRI)数据处理业务

思影科技弥散加权成像(DWI/dMRI)数据处理

思影科技脑结构磁共振成像数据处理业务(T1)

思影科技啮齿类动物(大小鼠)神经影像数据处理业务

思影数据处理业务三:ASL数据处理

思影科技脑影像机器学习数据处理业务介绍
招聘及产品:

招聘:脑影像数据处理工程师(上海,北京)

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍
单变量统计检验
       SPM是当前用于分析基于任务的fMRI数据的最常用方法之一。SPM的总体目标是定位在各个任务之间存在显著差异的大脑激活,如图2A所示。该技术是单变量的,这意味着通常使用一般线性模型分别对每个体素执行独立的参数检验t检验或f检验)。执行参数检验的3种最常见的软件包是SPM FSL,和AFNI
      当用于分类时,参数估计值或统计值(从整个大脑或在感兴趣的区域中提取)可直接与其他特征选择步骤一起用作分类特征。使用SPM的一个优点是空间影响已经隐含在特征中,通常会导致对模型的更直接的解释。但是,由于该过程本质上是单变量的,因此它可能会丢失在多个变量范围内共享的重要信息,因此可能不如直接考虑数据的多元结构的特征提取方法那么敏感。
 
分割,复杂网络和基于种子的分析
       为了克服由于如上所述的低时间分辨率而引起的不稳定性问题,采用了将大脑分割成更少区域的方法;通过图谱定义或通过数据驱动的聚类方法通常是首选。然后可以使用统计度量,例如(部分)相关性或互信息以确定脑区之间的功能连通性特征。生成的特征(通常在表示每个脑区之间网络耦合的对称邻接矩阵中表示)可以直接用作后续分类的特征,也可以用于进一步提取特征,例如,在图论框架中(图2B)。通常通过应用阈值对图进行二值化,并通过模块化将全局度量,例如节点度分布(脑区/节点之间的连接数)的图结构或关系用于表征网络特征。
      最简单直观的基于种子点的相关性分析(SCA)是使用相关性方法来寻找特定特征的典型方案,它确定了许多预定义种子点之间的耦合(基于前瞻性的实验或文献中的某些先验假设)。然后,将每个种子的时间序列数据与大脑的所有其他体素做相关,从而为每个种子生成一个基于全脑体素的功能连接图,如图2C所示。通常,基于图谱分割的方法很有吸引力,因为它们生成的数据更简单,并且通常导致对特征的更直接的解释。但是,固定的图谱分割方案暗含有限的灵活性,这可能导致选择不合适的特征并导致灵敏度降低。

独立成分分离
       独立成分分离是无监督的机器学习方法(有时也称为数据驱动方法),旨在从多个测量(即fMRI时间序列)中识别数据中的潜在源。fMRI中,这通常等同于识别与时间序列相关的空间源(通常在10100之间),如图2D所示。该过程可以看作是数据中信息的(有损)压缩。这些来源通常被认为是功能网络的代表,因为它们代表了大脑中一致的时间过程。一种广泛接受的方法是独立成分分析(ICA),它可以在具有相应时间序列的对象之间生成单个成分(源)。最常用的ICA是使用开放源代码工具箱执行的,例如GIFT FSL Melodic。成分分离的优势在于可以有效且自动地捕获一致的激活模式。潜在的缺点是可解释性可能具有挑战,因为分解也容易捕获包括运动和生理信号(如心脏和呼吸循环)在内的数据中的明显有害影响。而且,通常存在各种各样的可调参数(例如源的数量),这些参数很难手动设置,如果将其视为学习算法的一部分,可能会导致过拟合。

支持向量分类
     有监督的分类方法试图识别一些功能,这些功能将能够区分训练数据集中的标签。重要的是,当输入维数与样本数量相比较高时(通常在fMRI中,除非进行了详细的特征提取和选择),实际上很难将在训练集中获得完美的分类(过拟合)结果应用到测试集上,其性能对测试集的泛化效果会很差。因此,多变量模式分类的真正挑战是确保分类能很好地泛化到未知样本。
      有许多可用的分类算法,在这里我们将重点介绍SVC(支持向量分类)方法,因为它们在以前的文献中经常被使用,并且可以在几个易于使用的软件包中轻松获得。
      最简单的分类问题是二类线性分类,其中SVC算法表示为跨特征的线性投影的判别函数。
      这在二维情况下能够最直观地说明,其中所谓的分离超平面是一条直线(图1B),这里也很明显,有许多直线会导致相同的分类性能。SVC选择使分界面最大化的超平面,即最靠近的数据点的平面之间的垂直距离。因此,SVC专注于边缘上的点(最难分类的样本,也称为支持向量),而新样本的分类仅需要有关这些所谓支持向量的距离信息,从而进行有效评估。在训练集中,这通常被称为具有稀疏性的SVC方法,其中稀疏性是指样本而不是特征。
      在实践中,软间隔SVC  最可取的分类器,因为它允许错误分类的样本以获得更大的分界面,这将增加分类器的稳定性。在这种情况下,应将分界面的最大化与错误分类的样本的损失进行权衡,该损失与到分离超平面的距离成比例。权衡由参数(通常称为C参数)控制,该参数必须通过附加的嵌套CV程序进行选择或确定。对于不平衡的数据集(每个组中样本数不同的情况),可以通过对超平面进行加权来抵消类别不均衡(通过为代表性不足的类别分配更多的权重)。而且,对于此类数据集,仅靠准确性可能不是一个好的性能指标,因为当类别数量不平衡时,对某个类别分类的正确性本就是存在偏倚的。在这些情况下,使用其他指标(例如预测召回曲线或Matthew的相关系数)通常会提供更多信息。
      通常是通过将数据投影到另一个可以进行线性分离的空间(更高维度甚至是无限维度)中来进行处理以泛化到非线性判别。对于SVC以及其他一系列分类方法,可以通过所谓的kernel trick使用核函数来有效地实现这一过程。在这里,足以计算在投影空间(以Gram矩阵表示)中测得的样本之间的距离,该距离避免了直接使用高维投影进行操作。常用的核包括线性核(用于线性分类),径向基函数核和多项式核。请务必注意,核函数通常会引入其他需要通过CV选择或优化的参数,这会加剧过度拟合的问题。
      分类性能一般不会是唯一的感兴趣的变量。研究人员通常也对确定哪些大脑区域对于分类有贡献感兴趣。对于线性SVC分类方法,往往可以使用权重图或灵敏度图来反应这一点,使用可视化方法可以表明每个功能区对于分类性能的贡献。
       这些权重图的解释并不是简单明了的,因为特征实际上对于分类很重要,这不是因为特征与感兴趣的效果直接相关,而是因为它们可以过滤出无效的影响。 Haufe等人强调了这个问题,并提出了将权重图转换为线性分类的更可解释的可视化过程。
       在实践中,通常使用调查量表来确定数据标签(例如,精神分裂症评分),该调查表使用连续或有序的量表,在这些量表上很难定义清晰的分类划分。在这种情况下,对算法进行训练以直接预测此连续变量可能会很有吸引力。这有效地将分类过程变成了多元回归问题。在这里,支持向量回归与SVC相似,在其中通过考虑预测值(在训练集中)与测量值之间的距离来形成边界。在考虑使用回归模型代替分类时,应注意,还必须使用其他性能指标,例如平均绝对误差。不过这种度量的解释通常不如分类准确率直观。此外,对统计显著性的评估更加复杂,研究人员最常依赖于随机置换检验来形成经验分布。

深度学习
      基于神经网络的深度学习最近在机器学习社区中受到了广泛关注,并且也已被用于对几种常用的神经成像数据进行分类和临床设置。深度学习背后的一般原则是训练具有许多层和参数的大型神经网络,这些层和参数将原始(或在大多数情况下经过预处理的)数据作为输入,并且网络中的最后一层会产生结果,例如分类。
      如果经过适当培训,则网络的第一层应代表数据的基本特征,然后在随后的层中对其进行完善和专门化。由于这些网络固有地包含许多参数,因此由于数据量有限而导致过拟合是尝试训练网络时的主要问题。在这里,优化策略包括正则化,drop out和权重共享。另一种选择是使用迁移学习方法,该方法使用在其他数据集上进行了预训练的网络(甚至可能具有不同的模态),并且仅在网络的最后一层中优化权重。我们认为,此类策略可能会与数据论证相结合(其中创建了更多样本使用原始数据的变换/扰动)以确保深度学习在精神分裂症研究在未来的成功。
 
讨论与未来展望
      在前面的段落中,我们描述了精神分裂症分类的重要性,介绍了以前使用机器学习方法进行分类的文献,并描述了特征提取和分类的方法。机器学习方法具有一系列优势,这使它们对于研究早期风险阶段和细微差异非常有吸引力,因为精神分裂症相当符合这种情况。 Modinos等人展示了一个清晰的例子,说明了这些方法如何提高对细微变化的敏感性。他们在使用SVC(支持向量分类时发现精神分裂症患者的情绪回路有显著变化,而在使用标准SPM分析时未发现类别差异。
      但是,即使机器学习方法显示出迄今为止非常令人鼓舞的结果,仍需要考虑很多陷阱和挑战。在下文中,我们将重点介绍一些最重要的方面,在使用机器学习方法对精神分裂症或类似的早期风险人群进行分类时,应牢记这些方面。
      研究中可用的高维数和典型的低样本量是当前领域使用机器学习算法面临的主要挑战性问题。因此,为了确保良好的泛化性能,有必要降低输入数据的维数(特征提取),可以通过正则化的过程来完成这一点。重复嵌套的CV程序对于暂时缓解数据可用性问题很有用,同样的,鼓励跨站点共享数据的举措对于克服样本稀少的问题也非常重要。
      适当的预处理可能会对结果产生深远的影响,并且在方法和参数方面都有广泛的选择。对于特征提取,特征选择和分类步骤也是如此,并且需要注意的是,如果将这些选择视为分类的自由参数,则会加剧过拟合的问题,并应考虑采用适当的程序来优化泛化性,例如CV 。选择的特征提取方法将取决于研究问题。如果研究是由特定假设驱动的,那么使用特征提取方法来专门提取数据的相关维度可能是一个优势。相反,如果研究更具探索性,则最好使用分解方法,因为它避免了将分析限制于一组预定义的假设。
       一般而言,选择的高度灵活性导致的大量分类方案也是一个挑战。对于研究人员来说,很难证明没有哪个选择会影响模型的分类性能(因为一般来说,分类方案已针对分类性能进行了优化)。为了避免这些问题,强烈建议在开始研究之前预先设置特定的假设和详细的分析程序。请注意,这种预定义甚至对于具有探索性假设的研究也很有价值。另外,很重要的一点是,还必须发表具有阴性结果的研究,并着手进行旨在重现先前发现的具体研究。
      精神分裂症谱系疾病很复杂,由多种症状组成,个体间疾病进展不同。在实践中,这给清晰定义疾病表型带来了挑战,并使对潜在结果的解释变得困难。精神分裂症是由个人表达的症状和性状的连续范围,这种观点促使人们使用机器学习来预测疾病进展的多种连续测量。在这里,自然会考虑使用多元回归模型,例如支持向量回归直接预测精神分裂症的特征。此外,要利用以下事实,即经常使用各种等级量表来评估精神分裂症的多个维度,这些方法包括偏最小二乘回归法可用于建立多元神经影像数据和多种精神分裂症措施之间的紧密关系。

总结:
      总体来说,机器学习工具的使用以及基于深度学习的更鲁棒的方法代表了有前景的研究途径,可以帮助我们更全面地了解精神分裂症,从而更好地识别患有精神分裂症的个体,并促进对这些个体的适当管理和干预。机器学习构成了向定量评估的范式转变,我们不再需要依靠主观评分和结构化访谈。因此,可以减少花费在鉴定精神分裂症谱系障碍亚型上的时间,同时潜在地提高临床实践的准确性。
      总之,机器学习和神经成像相结合在精神分裂谱系障碍的研究中应用前景广阔,但仍然存在一系列挑战,尤其是与过拟合的鲁棒性以及如何得到更好的泛化性能有关。但是,如果这些挑战得得以解决,则机器学习将显著提高我们对精神分裂症和精神分裂症谱系障碍的理解。计算精神病学的新兴领域在疾病预防,早期诊断,确定药物靶标以及针对精神病的个体治疗计划中具有重要的应用,并可能会革新现代神经病学。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
少样本学习综述:技术、算法和模型
想学机器学习?这几种算法你需要掌握
机器学习(深度学习)为什么需要训练,训练出来的模型具体又是什么?
支持向量机及其应用
决策树算法介绍及应用 - 博客 - 伯乐在线
数据产品必备技术知识:机器学习及常见算法,看这一篇就够了
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服