打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Molecular Sciences:肠道微生物与机器学习的结合,极大推进了肠道微生物的研究进程

发表时间:2023年3月9日

发表期刊:International Journal of Molecular Sciences

原文链接:https://www.mdpi.com/1422-0067/24/6/5229
















背景介绍  

     

近年来,由于人们越来越了解肠道微生物群在人类健康中的关键作用,因此对肠道微生物群的研究显着增加。使用组学的方法研究肠道微生物组可以提供高通量和高分辨率的数据。大量数据导致了机器学习成为该领域强大且广泛使用的工具。

2023年3月9日,在 International Journal of Molecular Sciences期刊发表了题为:

Gut Microbes Meet Machine Learning: The Next Step towards Advancing Our Understanding of the Gut Microbiome 

   

研究内容

1.人体微生物组

近年来,由于人们越来越了解肠道微生物群在人类健康中的关键作用,因此对肠道微生物群的研究显着增加。人类胃肠道中存在着多种微生物群落,包括细菌、古细菌、真菌、微生物真核生物和病毒,所有这些微生物都与人类宿主存在共生关系。肠道微生物组包含近 100 万亿个细菌,其基因组比人类宿主大 150 倍(分别为 300 万和约 23,000 个基因)。在健康个体中,宿主和微生物群保持健康平衡,称为生态平衡,这种平衡可以改变为在多种病理条件下发现的生态失调状态(即微生物群组成的异常变化)。生态失调与疾病发展之间的实际关联在很大程度上仍不清楚,预计定义这种联系将成为未来几十年最大的医学挑战之一。

2.机器学习和肠道微生物组

宏基因组学、宏转录组学和代谢组学等基于组学的方法广泛用于评估人类肠道微生物群 .这些技术能够对整个微生物群落进行高通量和高分辨率研究并从多个角度研究微生物组。

  1. 宏基因组学技术(例如,16S rRNA基因测序或全基因组鸟枪测序)可以提供有关目标群落的整体微生物遗传内容的信息,

  2. 代谢组学测量该特定群落产生的不同化合物的浓度

基于组学的方法的使用产生了大量数据,机器学习等工具可以帮助处理和分析与人类肠道微生物群研究相关的这些数据

3.当前应用的挑战

尽管机器学习技术在研究微生物组与疾病之间的关系方面取得了令人鼓舞的结果,但仍需要解决重大挑战。监督学习模型对训练数据的数量和质量的依赖。由于样本量小、标签分布不成比例、实验方案不一致或无法访问相关元数据,这种依赖性可能导致模型缺乏可重复性,例如,两项荟萃分析发现,虽然结直肠癌患者存在生态失调,但特定人群特有的细菌多样性是特定人群特有的,在其他研究中不存在。正在研究的解决相关问题的方法包括创建人类肠道微生物群数据存储库,改进了数据披露准则 ,以及更易于访问的框架 ,可能导致开发更准确和可靠的机器学习模型,

4.数据存储库和数据预处理的重要性

将人类肠道微生物组数据存储库与数据共享透明度的提高相结合,使研究人员能够对各种研究进行荟萃分析,从而确定针对某些疾病的稳健生物标志物或生态失调指标 。许多研究人员认为,这些存储库中预处理数据的可用性可以最大限度地减少技术偏差并降低计算成本。

研究结果

如总结图机器学习,在分析人类肠道微生物群的多组学研究产生的大量数据方面发挥了至关重要的作用,这导致了微生物与疾病之间新联系的发现肠道微生物群遇上机器学习。由于组学分析导致数据可用性的增加,过去没有创建数据存储库,指南和分析框架,这导致可重复性和可靠性不令人满意。这些工具的实施促进了该领域从观察关联研究到实验因果推断和临床干预的转变。





 自然微生物综述( IF:31.851)于2018年在线发表了微生物组领域的研究方法综述,不仅系统总结了过去,更为未来3-5年内本领域研究方法的选择,提供了清晰的技术路线,让大家做出更好的研究,微生物组学研究主要涉及两方面技术:测序技术和数据分析技术,随着基因测序技术的进步和测序成本不断下降,大样本量的微生物组学研究激增。传统的统计方法已经不再适用于极度高维、稀疏的微生物组数据分析,而适用于复杂数据分析的机器学习逐渐成为微生物组学数据分析的首选方法。机器学习已被证明是分析微生物群落数据并对特定结果进行预测(包括人类和环境健康)的有效方法,基于微生物群落数据的机器学习已被成功用于预测人类健康中的疾病状态、环境质量和环境中污染的存在,并可以作为法医学中的微量证据。机器学习算法已经在肠道微生物、微生物组数组表型、环境微生物、微生物生态学、皮肤微生物、土壤微生物、植物微生物、人体微生物等领域应用广泛,通过查阅文献发现近几年机器学习在微生物组研究发刊分值都很高,特别是在Nature Communications、Advanced Materials(IF=30.849)、Water Research Nature Microbiology、Environment International 、Nature Methods、Cell Regeneration、JAIMS等期刊多次发表!

        代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科,被广泛用于揭示小分子与生理病理效应间的关系。目前,代谢组学已经被应用于药物开发的各个阶段(如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等)。基于代谢组学的高性价比特性,它被药学领域的研究者给予了厚望,有望加速新药开发的进程。然而,代谢组领域还面临着严重的信号处理与数据分析问题,对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,就需要开发针对代谢组信号系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。  

    由于该项研究资料和学习平台较少,信息技术不公开,培训学习迫在眉睫,特此诚挚邀请您参加“机器学习微生物组学+机器学习代谢组学+机器学习转录组学与表观组学+深度学习基因组学”专题线上培训班,参会学员已达3000余名,学懂学会学透彻学以致用,做出有价值的科学研究, 能够快速运用到自己的科研项目和课题上,助力学员发表Nature、Science、Cell等正刊及子刊!(在生信分析的新技术加持下,用更少的经费,发更高质量的文章)

培训对象

全国各大高校、企业、科研院所从事人工智能、生命科学、代谢工程、有机合成、天然产物、药物、生物信息学、植物学,动物学、化学化工,医学、基因组学、农业科学、植物学、动物学,临床医学、食品科学与工程、肿瘤免疫与靶向治疗、 全基因组泛癌分析、人黏连蛋白折叠基因组机、病毒检测、功能基因组、遗传图谱、基因挖掘变异、代谢组学、蛋白质组学、转录组学、生物医学、癌症、核酸、毒物学等研究科研人员及爱好者


课程内容

01

机器学习微生物组学

第一天 

机器学习及微生物学简介

1. 机器学习基本概念介绍

2. 常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)

3. 混淆矩阵

4. ROC曲线

5. 主成分分析(PCA)

6. 微生物学基本概念

7. 微生物学常用分析介绍

R语言简介及实操

   1.R语言概述

   2.R软件及R包安装

   3.R语言语法及数据类型

   4.条件语句

   5.循环

  6.函数

        7.常用的机器学习和微生物数据相关的R包介绍

第二天

机器学习在微生物学中的应用

1.利用机器学习基于微生物组学数据预测宿主表型

   2.利用机器学习基于微生物组学数据预测疾病状态

   3.利用机器学习预测微生物风险

   4.机器学习研究饮食对肠道微生物的影响

微生物学常用分析(实操)

         1. 微生物丰度分析

2. α-diversity,β-diversity分析

3. 进化树构建

4. 降维分析

5. 基于OTU的差异表达分析,热图,箱型图绘制

         6. 微生物biomarker鉴定

第三天{实操)

零代码工具利用机器学习分析微生物组学数据

1. 加载数据及数据归一化

2. 构建训练模型(GLM, RF, SVM)

3. 模型参数优化

4. 模型错误率曲线绘制

5. 混淆矩阵计算

6. 重要特征筛选

7. 模型验证,ROC曲线绘制

8.利用模型进行预测

第四天{实操)

利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)

1. 加载数据(三套数据)

2. 数据归一化

3. OUT特征处理

4. 机器学习模型构建(RF, KNN, SVM, Lasso等9种机器学习方法)

5. 5倍交叉验证

6. 绘制ROC 曲线,比较不同机器学习模型

         7.模型性能评估

第五天{实操)

利用机器学习预测微生物风险(多分类)

1. 加载数据

2. 机器学习模型构建(RF, gbm, SVM, LogitBoost等等)

3. 10倍交叉验证

4. 模型性能评估

利用机器学习预测刺激前后肠道菌群变化

1. 数据加载及预处理

2. α-diversity,β-diversity分析

3. RF模型构建(比较分别基于OUT,KO,phylum的模型效果)

4. 10倍交叉验证, 留一法验证

5. 特征筛选及重要特征可视化

          6. 外部数据测试模型

案例图片

02

机器学习代谢组学


第一天

A1 代谢物及代谢组学的发展与应用

(1) 代谢生理功能;

(2) 代谢疾病;

(3) 非靶向与靶向代谢组学;

(4) 空间代谢组学与质谱成像(MSI);

(5) 代谢流与机制研究;

(6) 代谢组学与药物和生物标志物。

A2 代谢组学实验流程简介

A3 色谱、质谱硬件原理

(1) 色谱分析原理;

(2) 色谱的气相、液相和固相;

(3) 色谱仪和色谱柱的选择;

(4) 质谱分析原理及动画演示;

(5) 正、负离子电离模式;

(6) 色谱质谱联用技术;

(7) LC-MS 的液相系统

A4 代谢通路及代谢数据库

(1) 几种经典代谢通路简介;

(2) 能量代谢通路;

(3) 三大常见代谢物库:HMDB、METLIN 和 KEGG;

(4) 代谢组学原始数据库:Metabolomics Workbench 和Metabolights.

第二天

B1 代谢物样本处理与抽提

(1) 组织、血液和体液样本的提取流程与注意事项;

(2) 用 ACN 抽提代谢物的流程与注意事项;

(3) 样本及代谢物的运输与保存问题;

B2 LC-MS 数据质控与搜库

(1) LC-MS 实验过程中 QC 样本的设置方法;

(2) LC-MS 上机过程的数据质控监测和分析;

(3) XCMS 软件数据转换与提峰;

B3 R 软件基础

(1) R 和 Rstudio 的安装;

(2) Rstudio 的界面配置;

(3) R 的基本数据结构和语法;

(4) 下载与加载包;

(5) 函数调用和 debug;

B4 ggplot2

(1) 安装并使用 ggplot2

(2) ggplot2 的画图哲学;

(3) ggplot2 的配色系统;

(4) ggplot2 画组合图和火山图;

第三天

机器学习

C1 无监督式机器学习在代谢组学数据处理中的应用

  (1) 大数据处理中的降维;

  (2) PCA 分析作图;

  (3) 三种常见的聚类分析:K-means、层次分析与 SOM

  (4) 热图和 hcluster 图的 R 语言实现;

C2 一组代谢组学数据的降维与聚类分析的 R 演练

   (1) 数据解析;

   (2) 演练与操作;

C3 有监督式机器学习在代谢组学数据处理中的应用

 (1) 数据用 PCA 降维处理后仍然无法找到差异怎么办?

 (2) PLS-DA 找出最可能影响差异的代谢物;

 (3) VIP score 和 coef 的意义及选择;

 (4) 分类算法:支持向量机,随机森林

C4 一组代谢组学数据的分类算法实现的 R 演练

  (1) 数据解读;

  (2) 演练与操作;

第四天

D1 代谢组学数据清洗与 R 语言进阶

(1) 代谢组学中的 t、fold-change 和响应值;

(2) 数据清洗流程;

(3) R 语言 tidyverse

(4) R 语言正则表达式;

(5) 代谢组学数据过滤;

(6) 代谢组学数据 Scaling 原理与 R 实现;

(7) 代谢组学数据的 Normalization;

(8) 代谢组学数据清洗演练;

D2 在线代谢组分析网页 Metaboanalyst 操作

(1) 用 R 将数据清洗成网页需要的格式;

(2) 独立组、配对组和多组的数据格式问题;

(3) Metaboanalyst 的 pipeline 和注意事项;

(4) Metaboanalyst 的结果查看和导出;

(5) Metaboanalyst 的数据编辑;

(6) 全流程演练与操作

第五天

E1 机器学习与代谢组学顶刊解读(2-3 篇);

(1) Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;

(2) Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;

(3) 1-2 篇代谢组学与转录组学和蛋白组学结合的文献。 

E2 文献数据分析部分复现(1 篇)

(1) 文献深度解读;

(2) 实操:从原始数据下载到图片复现;

(3) 学员实操。

案例图片

03 机器学习转录组学与表观组学

第一天

理论部分

高通量测序原理

高通量测序基础

测序方法及数据

二代测序数据分析流程

实操内容

R语言基础

R(4.1.3)和Rstudio的安装

R包安装和环境搭建

数据结构和数据类型

R语言基本函数

数据下载

数据读入与输出

第二天

理论部分

多组学基础

常用生物组学实验与分析方法

常用组学数据库介绍

批量处理组学数据

生物功能分析

基于转录组学的差异基因筛选,疾病预测

组学数据可视化

实操内容

Linux操作系统

Linux操作系统的安装与设置

网络配置与服务进程管理

Linux的远程登录管理

常用的Linux命令

在Linux下获取基因数据

利用Linux 探索基因组区域

Shell script与Vim编辑器

基因组文件下载与上传

Linux权限管理

文件的身份

修改文件的所有者和所属组

修改文件权限

第三天

理论部分

介绍转录组学的基本概念和研究流程

RNA-seq数据的预处理和质量控制

序列比对和对齐评估

基因表达量估计和差异表达分析

实操内容

转录组测序数据质量控制

转录组数据比对

RNA-seq数据原始定量

主成分分析

原始定量结果差异分析

差异结果筛选及可视化

GO和KEGG通路富集分析

GSEA基因集富集分析

第四天

理论部分

表观遗传学的基本概念和技术介绍

DNA甲基化和组蛋白修饰的分析方法

表观组数据的预处理和质量控制

差异甲基化和差异修饰分析

甲基化和修饰的功能注释和富集分析

甲基化数据的整合分析和基因调控网络构建

表观组数据的可视化方法和工具

介绍其他表观组学技术(如染色质构象捕获)

实操内容

测序数据质量控制和检查

数据比对和多匹配问题

计算结合峰位置

IGV中组学结果可视化

差异peaks分析

结合程度矩阵计算

富集热图和曲线图绘制

第五天

理论部分

机器学习概述

线性模型

决策树

支持向量机

集成学习

模型选择与性能优化

实操内容

决策树算法实现

随机森林算法实现

支持向量机(SVM)算法实现

朴素贝叶斯算法实现

Xgboost算法实现

聚类算法实现

DBSCAN算法实现

层次聚类算法实现

第六天

理论部分

基因功能注释和富集分析

WGCNA(Weighted Gene Co-expression Network Analysis)网络分析

转录因子分析和调控网络构建

转录组数据的可视化方法和工具

转录水平预测蛋白翻译水平

实操内容

创建Seurat对象

数据质控

测序深度差异及标准化

单细胞数据降维

批次效应去除

数据整合

亚群注释

GSVA通路活性分析

单细胞富集分析

案例图片

04

深度学习基因组学

第一天

度学习算法介绍

论内容:

1.有监督学习的神经网络算法

1.1 全连接深度神经网络 DNN 在基因组学中的应用举例

1.2 卷积神经网络 CNN 在基因组学中的应用举例

1.3 循环神经网络 RNN 在基因组学中的应用举例

1.4 图卷积神经网络 GCN 在基因组学中的应用举例 2.无监督的神经网络算

2.1 自动编码器 AE 在基因组学中的应用举例

2.2 生成对抗网络 GAN 在基因组学中的应用举例

实操内容

1.Linux 操作系统

1.1 常用的 Linux 命令

1.2 Vim 编辑器

1.3 基因组数据文件管理, 修改文件权限

1.4 查看探索基因组区域

2.Python 语言基础

2.1.Python 包安装和环境搭建

2.2.常见的数据结构和数据类

第二天

因组学基础

理论内容

1. 基因组数据库

2.    表观基因组

3.    转录基因组

4.    蛋白质组

5.    功能基因组 

实操内容基因组常用深度学习框架

1. 安装并介绍深度学习工具包 tensorflowkeras ,  pytorch

2. 在工具包中识别深度学习模型要素

2.1.数据表示

2.2.张量运算

2.3.神经网络中的“层”

2.4.由层构成的模型

2.5.损失函数与优化器

  2.6.数据集分割

2.7.过拟合与欠拟合

3.基因组数据处理

3.1 安装并使用 keras_dna 处理各种基因序列数据如 BED、    GFF

GTF、  BIGWIG、  BEDGRAPH、WIG 等

3.2 使用 keras_dna 设计深度学习模型

3.3 使用 keras_dna 分割训练集、测试集

3.4 使用 keras_dna 选取特定染色体的基因序列等

4.深度神经网络 DNN 在识别基序特征中应用

4.1 实现单层单过滤器 DNN 识别基序

4.2 实现多层单过滤器 DNN 识别基序

 4.3 实现多层多过滤器 DNN 识别基序

第三天

积神经网络 CNN 在基 调控预测中的应用

理论内容

1.Chip-Seq 中识别基序特征 G4 ,如 DeepG4

2.Chip-Seq 中预测 DNA 甲基化 ,  DeepSEA

3. Chip-Seq 中预测转录调控因子结合 ,  DeepSEA

4. DNase-seq 中预测染色体亲和性 ,  Basset

5. DNase-seq 中预测基因表达 eQTL ,  Enformer 实操内容

复现卷积神经网络 CNN 识别基序特征 DeepG4、非编码基因突变 DeepSEA 预测染色体亲和性 Basset ,基因表达 eQTL

1. 复现 DeepG4 从 Chip-Seq 中识别 G4 特征

2. 安装 selene_sdk ,复现 DeepSEA 从 Chip-Seq 中预测 DNA 甲基化, 非编码基因突变

3. 复现 Basset ,从 Chip-Seq 中预测染色体亲和性

  4. 复现 Enformer ,从 Chip-Seq 中预测基因表达 eQT

第四天

度学习在识别拷贝数变 异 DeepCNV 、  调控因子 DeepFactor 上的应用

理论内容

1. SNP 微阵列中预测拷贝数变异 CNV ,  DeepCNV

2.RNA-Seq 中预测 premiRNA ,dnnMiRPre

3.从蛋白序列中预测调控因子蛋白质 ,  DeepFactor 实操内容

1. 复现 DeepCNV 利用 SNP 微阵列联合图像分析识别拷贝数变异

2. 复 现 循 环 神 经 网 络 RNN 工 具   dnnMiRPre ,   从 RNA-Seq 中 预 测 premiRNA

 3. 复现 DeepFactor ,从蛋白序列中识别转录调控因子蛋白质

第五天

度学习在识别及疾病表 及生物标志物上的应用

理论内容

1.从基因表达数据中识别乳腺癌分型的深度学习工具 DeepType

2.从高维多组学数据中识别疾病表型 ,XOmiVAE

3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具 DeepHE

实操内容

1. 复现 DeepType ,从 METABRIC 乳腺癌数据中区分乳腺癌亚型

2. 复现 XOmiVAE ,从 TCGA 多维数据库中识别乳腺癌亚型

  3.复现 DeepHE 利用基因序列及蛋白质相互作用网络识别关键基因

第六天

度学习在预测药物反应 制上的应用

理论部分                                                                              

1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具 SWnet

实操内容

1. 预处理药物分子结构信

2. 计算药物相似性

3. 在不同数据集上构建 self-attention SWnet

4. 评估 self-attention SWnet

5. 构建多任务的 SWnet

6. 构建单层 SWnet

 7. 构建带权值层的 SWnet

案例图片







讲师简介

  主讲老师刘老师,生物信息学博士,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,出版医学实用教材《Python医学实战分析》,发表SCI论文22篇,其中一作及并列一作9篇。

   机器学习代谢组学主讲老师来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。

   主讲老师来自国内高校陈老师授课。在国内外学术刊物发表论文数篇,包括NatureCommunication,CellRegeneration等知名期刊,研究方向主要为生物信息学,发育生物学和遗传学等。利用多组学数据,通过深度学习算法进行数据分析和挖掘,包括ChIP-seq,ATAC-seq,RNA-seq,CNV等,解决并回答领域内多个基础的生物学机制。

  机器学习微生物来自国内高校李老师授课,有十余年的蛋白质组及微生物组数据分析经验。研究领域涉及机器学习,芯片数据分析,蛋白质组数据分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析等,发表SCI论文30余篇,其中一作及并列一作15篇





培训对象






全国各高校、企业、科研院所从事人工智能、生命科学、代谢工程、有机合成、抗体工程、基因编辑、酶工程、产物、蛋白质、药物、生物信息学、植物学 ,动物学、食品、化学化工 医学、疾病、机器学习、基因组学、农业科学、植物学、动物学 ,临床医学、食品科学与工程、植物基因组、动物传染病、肿瘤免疫与靶向治疗、全基因组泛癌分析、人黏连蛋白折叠基因组机、生物化学、病毒检测、高通量测序、分子物学、功能基因组、遗传图谱、基因挖掘变异、代谢组学、蛋白质组学、转录组学、生物医学、 转化研究、蛋白质、癌症、核酸、毒物学研究、生物计算、生态、肿瘤、遗传、因改造、细胞分化、微生物、生物医学大数据分析与挖掘、数学类专业、计算机科学、 等研究科研人员以及人工智能爱好者







本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Nat Biotechnol|通过机器学习发现抗生素
科研 | 肠道菌群代谢与HIV感染炎症之间的相互作用
科研 | SBB:基于扩增子、宏基因组序列预测微生物群落代谢特征
Cell Discovery:中国成年人群M-GWAS研究揭示基因、微生物组与疾病的联系 | CNGBdb支撑发表科研成果速递
牛!王军等喜提NBT:用AI在肠道超高效“挖”抗菌肽(附独家专访) | 热心肠日报
Nature:土壤微生物领域又有重大突破!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服