打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
代谢组学下游分析入门(一)三种分析方法的区分

近年来,随着对生物学机制探索的逐渐深入和科技的进一步发展,转录组学,蛋白质组学和代谢组学已经在各个领域的研究中发挥越来越重要的作用,与转录组学和蛋白质组学不同的是,代谢组学是对小分子进行研究的组学,其研究对象代谢物作为分子调控机制的最终产物,与生物的表型密切相关。

我们今天开始学习代谢组学的下游分析,首先来分辨代谢组学下游分析的三种分析方法——PCA(主成分分析),PLS-DA(偏最小二乘法判别分析),OPLS-DA(正交偏最小二乘法判别分析)。

学过转录组学的同学们对PCA一定不陌生,它是最常见的多元统计分析方法之一,其用处在于“化繁为简”,将大量相关变量通过线性变换进行简化降维,留下数据中对方差变化影响最大的特征,即“主成分”。PCA是无监督模式下的数据分析,即不区分样本组别,单纯分析数据特征,常用来分析及可视化数据的组内重复性和组间差异性。在代谢组学中还可以根据正负离子两组数据分析时标准品的位置来进行质控的评估。

图中展示了脓毒症患者在正离子模式(左)和负离子模式(右)下已鉴定出的代谢物与正常对照组 (NC) 不同【1】。

这张图展示的是质控评估,绿色的点代表对照样品,蓝色的点代表糖尿病样品。图中点的位置是由样品中的所有代谢物决定【2】。

而PLS-DA是一种有监督的判别方法,经常应用于分类和判别问题,由于代谢组学数据的复杂性,尤其是面对组间差异不明显的样本,因无监督的PCA对所有样本不加以区分,即每个样本对模型有着同样的贡献,单纯的无监督分析在这种情况下不能很好的展现出组间差异性,而PLS-DA使用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型就可以更好的分析及可视化样本的组间差异。除了降维数据外,PLS-DA还可实现对样品类别的预测(即用于分类),通过构建分类预测模型,可进一步用于识别更多的样本所属,这是探索性的PCA方法无法做到的。

图中展示了PLS-DA用于构建分类模型,区分了受保护的猕猴和易感猕猴,平衡的交叉验证准确率为89.6%【3】。

相较于PLS-DA,OPLS-DA可以更好地避免过拟合现象,但与PLS-DA相比通常没有预测性能优势的提升。目前的分析上来看二者区别不大,通常两种方法取其一即可,但通常推荐使用PLS-DA。

该图为OPLS-DA构建分类模型【4】。

PLS-DA和OPLS-DA分析中,还会得到变量投影重要度(Variable Importance for the Projection,VIP)值,用于衡量各代谢物组分含量对样本分类判别的影响强度和解释能力,辅助标志代谢物的筛选。在遇到P值和FDR值已经卡过阈值但差异代谢物仍较多的情况下,可以通过卡VIP值进一步筛选差异代谢物,通常以VIP值>1作为筛选标准。对于PLS-DA和OPLS-DA分析,结果中的R2X和R2Y分别表示所建模型对X和Y矩阵的解释率,Q2标示模型的预测能力,它们的值越接近于1表明模型的拟合度越好,训练集的样本越能够被准确划分到其原始归属中。

参考文献

【1】Chen Q, Liang X, Wu T, Jiang J, Jiang Y, Zhang S, Ruan Y, Zhang H, Zhang C, Chen P, Lv Y, Xin J, Shi D, Chen X, Li J, Xu Y. Integrative analysis of metabolomics and proteomics reveals amino acid metabolism disorder in sepsis. J Transl Med. 2022 Mar 14;20(1):123. doi: 10.1186/s12967-022-03320-y. Erratum in: J Transl Med. 2022 Aug 15;20(1):366. PMID: 35287674; PMCID: PMC8919526.

【2】Wang C, Yu J, Zhang R, Wang W, Shi Z, Liu Y, Song G, Wang H, Han N, Huang L, An Y, Tian S, Chen Z. Small intestine proteomics coupled with serum metabolomics reveal disruption of amino acid metabolism in Chinese hamsters with type 2 diabetes mellitus. J Proteomics. 2020 Jul 15;223:103823. doi: 10.1016/j.jprot.2020.103823. Epub 2020 May 16. PMID: 32428569.

【3】Irvine EB, O'Neil A, Darrah PA, Shin S, Choudhary A, Li W, Honnen W, Mehra S, Kaushal D, Gideon HP, Flynn JL, Roederer M, Seder RA, Pinter A, Fortune S, Alter G. Robust IgM responses following intravenous vaccination with Bacille Calmette-Guérin associate with prevention of Mycobacterium tuberculosis infection in macaques. Nat Immunol. 2021 Dec;22(12):1515-1523. doi: 10.1038/s41590-021-01066-1. Epub 2021 Nov 22. PMID: 34811542; PMCID: PMC8642241.

【4】Nadiras C, Eveno E, Schwartz A, Figueroa-Bossi N, Boudvillain M. A multivariate prediction model for Rho-dependent termination of transcription. Nucleic Acids Res. 2018 Sep 19;46(16):8245-8260. doi: 10.1093/nar/gky563. PMID: 29931073; PMCID: PMC6144790.

编辑:宋丽影

排版:李吉珍

审校:王维

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
【代谢组学】利用多元统计从代谢组数据中提取有意义的信息
答疑解惑专题(三)——代谢组学数据处理
【1115.】PCA、PLS-DA、OPLS-DA到底啥关系?
干货|浅析代谢组学最常用到的数据分析方法
代谢组学数据通常是OPLS-DA或者PLS-DA来代替PCA
代谢组学入门十问!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服