打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
生信是基础科研的好基友,独酌可,对饮也可

昨天看到酸菜师父用穷举法遍历了全部40余种基础科研套路。作为一个学了36策,又略懂点生信分析套路的酸菜师父的徒弟,在师父列的基础科研的每个套路每个环节里,都看到了有生信分析进一步验证的可能性。古有脂砚斋重评石头记,今个徒弟给酸菜师父的基础科研套路加个生信分析的注脚。简单谈一下我对每个套路里生信相关分析的理解。因为生信数据库众多庞杂,质量良莠不齐,我在每个套路下仅列几个生息分析的数据库,不求穷举而多,但求精准实用。

其实在基础科研中,把生信分析拉来打辅助,相互配合,还真给SCI的故事的完整性和说理维度都增光添彩了不少。要说变量来源,差异表达的各类分子和药物的有效成分,可以通过生信分析解决;通路机制也可以通过各类富集分析进行聚类定几个感兴趣的通路;至于分子与分子/药物之间各种直接间接关系,也是可以通过直接数据库检索或者计算机模拟分析得到初步结论。生信分析可以算得上科研套路里的百搭的一个论证维度,哪哪都可以有他。而且生信分析能屈能伸,有大样本高通量分析,CNS级别的王者也打过,低分灌水文章中也不乏它的身影。

单变量论证

“表达差异(分子),有效成分(分子)”

变量分为分子,药物,通路。分子分为DNA、 RNA 和蛋白;药物分为中药(复方,药团,药对,单药,活性成分)与西药(药物,有效成分);通路包括9大信号通路。其中可以做主变量的为分子和药物。

1.分子表达相关的数据库:

1)综合性数据库:TCGA, GEO, ICGC, Arrayexpress, Target, SRA,UCSC Xena等数据库下载基因表达矩阵,用R语言整理进行差异表达分析挑有意义的分子,或者直接分析目的基因的表达情况

2)提供基因基本信息与表达检索的数据库

①Human Protein Atlas 数据库,简称HPA数据库,网址https://www.proteinatlas.org/,提供全部24,000种人类蛋白质的组织和细胞分布信息。

②Cancer Cell Line Encyclopedia 数据库,简称CCLE数据库,网址https://portals.broadinstitute.org/ccle_legacy/home,有1,457个 细胞系,涉及84,434个genes。包括WES数据,WGS数据,RNAseq数据,扩增子数据,可以检索specific genes的表达变化,突变,indels,拷贝数变异(copy number variation, CNV),甲基化等等。

③Genecards 数据库,网址http://www.genecards.org/,自动整合约125个网络来源的基因的数据(包括基因组,转录组学,蛋白质组学等),提供基因的描述信息,功能信息,定位以及在不同组织的表达情况。

④ Gene Expression Profiling Interactive Analysis数据库,简称GEPIA数据库,网址 http://gepia.cancer-pku.cn/index.html,提供了对于目的基因的在不同组织的表达情况,差异表达,生存分析,相关性分析等。

⑤Oncomine数据库,网址https://www.oncomine.org/resource/login.html, 可用于分析基因表达差异,预测共表达基因,预测表现,根据肿瘤分期、分级、组织类型等临床信息进行分类等。

⑥miRBase数据库,网址http://www.mirbase.org/index.shtml,该数据库中收录了来自200多个物种,接近4万个miRNA的信息,包括miRNA前体对应的基因,序列,茎环结构等信息,是最全面的miRNA数据库。

⑦LNCipedia数据库,网址https://lncipedia.org/,是一个综合性的人类lncRNA数据库,整合了多个数据库,包括lncRNA基因ID, 转录本iD, 染色体位置,类别,长度等信息。

⑧ CSCD数据库,网址http://gb.whu.edu.cn/CSCD/,收录了272152个肿瘤特异性的环状RNA, 会给出circRNA来源基因名称,对应的样本名称,基因的结构信息,所在染色体的位置等。

2. 药物相关数据库

1)中药成分数据库

TCMSP数据库,网址http://tcmspw.com/tcmsp.php,包含了499味草药(中国药典2010版)以及每位草药的化合物成分(共计29000余个),针对每个化合物提供了较全面的人体吸收、分布、代谢(ADME)性质评价数据,同时提供了潜在活性分子的靶标及其疾病信息。

其他可替代的中药成分网站包括SymMap, TCM-PTD, TCM-MESH, TCMID数据库。

2)药物通用信息注释数据库

① Pubchem数据库,网址https://pubchem.ncbi.nlm.nih.gov/,专门针对化学结构搜索的数据库,包括化合物的 2D 和 3D 结构物理性质、化学性质以及安全信息。更重要的是能查询到与化合物相关的文献和专利。

② DrugBank数据库,网址https://www.drugbank.ca/,介绍了6000多个药物的名称、研究历史、化学结构、处方剂量、理化性质、适应症分类、药理学研究、药物相互作用、临床试验、相关制药公司、价格、专利号、基因或蛋白质靶标、该药物的转运蛋白等,相关的参考文献也都详细地列在旁边。

③ ChEBI数据库,网址https://www.ebi.ac.uk/chebi/,是一个收录生物医学相关化学条目的数据库。

二元变量论证

生信数据库预测变量与变量之间关系的来源有三种:1、基于已经发表的文献;2、基于计算机算法对药物或者分子的结构进行预测;3、基于实际体内体外实验的测量计算。

1) 药物+通路:

Kyoto Encyclopedia of Genes and Genomes数据库,简称KEGG数据库,网址http://www.genome.jp/kegg/pathway.html,提供了药物与通路之间相互作用的信息。在药物开发方面:包括抗感染药、抗肿瘤药、神经系统药物等相关通路;另外还包含靶向药物的相关通路。

2) 药物+分子:

STITCH数据库,网址http://stitch.embl.de,用于检索已知的以及被预测的化合物和蛋白质之间互作关系的平台,化合物与蛋白质之间的互作关系通过实验验证,数据库,以及文献中的研究被证实。

3) 分子+通路:

① DAVID数据库,网址http://david.abcc.ncifcrf.gov/ , 用于筛选出差异基因之后的功能和通路富集分析。提供了GO注释,KEGG注释,蛋白相互作用,蛋白功能区域,疾病相关,生物代谢通路,序列特点,异构体,基因功能总结,基因在组织里的表达和论文等。但是有数据处理慢,数据库更新慢的缺点。

② Metascape数据库,网址http://metascape.org/gp/index.html ,该数据库不仅能完成通路富集和生物过程注释,还能做基因相关的蛋白质网络分析和涉及到的药物分析。与DAVID数据库相比,其操作简单,数据可视化结果精美,且数据更新快,覆盖广,整合了多个数据库的资源。

4)分子+分子:

① STRING数据库,网址https://string-db.org/ , 适用于研究蛋白之间的相互作用网络。

② starBase数据库,网址http://starbase.sysu.edu.cn/index.php ,适用于研究miRNA target,

RNA-RNA相互作用,ceRNA调控网络,以及RNA和蛋白的结合信息。

二元变量+表型嵌套

目前生信分析已发表的文章中,应用两种表型嵌套的文章还比较少见,但也不是不可行。可以通过数据库或者已经发表的高分文章或者特定的R包获得表型相关基因的list,就得到了这个表型相关的基因集合。如果涉及到表型嵌套的话,那么这两个嵌套的表型的基因list取交集,不就得到了与这两个表型相关的交集基因集合,大概率这些分子会与表型嵌套有关。

表型相关数据库:

Genecards, 在检索框输入感兴趣的表型名称,即可得到表型相关的基因列表。

三元变量论证

药物、分子、通路这三元变量进行组合,有意义的组合只有七种。

药物/分子+分子/通路+通路/分子

排列组合的原则是药物不做次,通路不做主,分子主次皆可。

通过将以上二元变量相关的数据库,两两组合,同样可以解决三元论证的问题。包括目标分子的来源问题是通过数据库或者生信分析筛出来的,药物的有效成分是通过数据库检索出来的。与其他分子的相互作用,与哪些生物学功能、通路机制相关也是通过分析预测缩小了研究范围。

三元变量+表型嵌套

模块堆叠,排列组合。对复杂的因素进行拆解,是解决问题、减少焦虑的有效手段。从最简单的二元变量入手,再组合成三元变量,最后与多个表型变量相关基因list取交集基因相联系,即可完成本条逻辑线。

二元分子交互论证

RNA可以与DNA, RNA, 蛋白结合。蛋白可以与DNA, RNA, 蛋白结合。同时化合物也可以与分子相结合。

1)蛋白-DNA(即转录因子模式)

转录因子含有 DNA 结合的结构域,能识别 启动子 DNA 序列的 motif,调控基因的转录,包括对编码基因mRNA 、非编码RNA(miRNA , lncRNA , circRNA)等的转录调节。

① JASPAR, 网址http://jaspar.genereg.net/ ,提供了转录因子与DNA结合位点motif最全面的公开数据。

② Harmonizonme,网址http://amp.pharm.mssm.edu/Harmonizome , 提供了靶基因数据可在线浏览特定转录因子的靶基因外,还可以方便的下载该数据集。

③ TRRUST,网址http://www.grnpedia.org/trrust/ ,记录转录因子调控关系的数据库,包含转录因子对应的靶基因, 以及转录因子间的调控关系。目前存储了人和小鼠调控信息。

④ AnimalTFDB,网址http://bioinfo.life.hust.edu.cn/AnimalTFDB/#!/ ,根据某段基因序列预测结合的转录因子

⑤ hTFtarget,网址http://bioinfo.life.hust.edu.cn/hTFtarget#!/ , 通过转录因子预测靶基因。

2)蛋白-蛋白

蛋白与蛋白通过形成复合物(complex)来发挥作用;或者蛋白通过直接结合效应蛋白,影响效应蛋白的功能。

① STRING数据库,网址https://string-db.org/ , 研究蛋白之间互作网络,有助于挖掘核心调控基因覆盖物种最多,互作信息最大,可输入蛋白质名称或序列;单个或多个蛋白。

② InBioMap数据库,网址https://www.intomics.com/inbio/map.html#home , 基于以及发表的文献来分析蛋白相互作用。

③ BioGRID 数据库,网址https://thebiogrid.org/ , 存档和传播多个模式生物和人类的遗传和蛋白质相互作用的数据。

④ HPRD数据库,网址http://hprd.org/index_html , 专门存储人类蛋白质相互作用信息的数据库,该数据库中存储的信息均经过实验验证,数量较多。

3)RNA-RNA/DNA

RNA与RNA或者DNA间能够碱基互补配对来发挥作用。RNA既可以结合到DNA上,影响基因转录等功能,也可以结合到RNA上,在转录后水平影响RNA,比如miRNA对mRNA的调控等。

①StarBase数据库,网址http://starbase.sysu.edu.cn/ , 通过高通量的数据寻找潜在的miRNA-ncRNA,miRNA-mRNA, ncRNA-RNA, PBR-ncRNA以及RBP-mRNA的相互作用。

②TargetScan数据库,网址http://www.targetscan.org/vert_72/ ,一个miRNA 靶基因预测的网站, 包括了 人, 小鼠,果蝇 , 线虫, 斑马鱼 共5个物种的miRNA 靶基因结果。

③LongTarget数据库,网址http://lncrna.smu.edu.cn/ ,输入lncRNA序列或者位置信息,就可以预测lncRNA结合DNA的motif以及结合DNA的位点信息。

④RNAInter数据库,网址http://www.rna-society.org/rnainter/ ,总条目超过4000万条的多种类型RNA互作数据,同时结合RNA编辑、定位、修饰、靶区域、结构以及同源互作等注释信息。

4)RNA-蛋白

RNA能够结合到蛋白上,影响蛋白的功能或者定位。同样,蛋白亦可以发作用于RNA,影响RNA的功能。

①catRAPID数据库,网址http://service.tartaglialab.com/page/catrapid_group , 专门用来计算蛋白和RNA结合特性的工具,可以从RNA入手,或者蛋白入手,进行相应的预测。

②RBPDB数据库,网址http://rbpdb.ccbr.utoronto.ca/ ,直接预测与RNA的作用蛋白。

③RPISeq数据库,网址http://pridb.gdcb.iastate.edu/RPISeq/ ,输入RNA以及蛋白序列,分析两者是否存在相互作用的可能性。

④lncPro数据库,网址http://bioinfo.bjmu.edu.cn/lncpro/ ,预测lncRNAs和蛋白质相互作用的工具。

5)化合物-分子

化合物可以通过直接作用或者间接影响到细胞内靶分子的表达量以及功能活性。

①STITCH数据库,网址http://stitch.embl.de/ , 用于检索已知的以及被预测的化合物和蛋白之间互作关系的平台。互作关系通过实验验证,数据库及文献中的研究被证实。

②TCMSP数据库,网址http://tcmspw.com/tcmsp.php , 用HIT数据预测算法SysDT获得药物靶点之间的关系。为每种化合物提供了药物代谢动力学信息,如DL, OB, BBB, Caco-2。

③TTD数据库,网址http://bidd.nus.edu.sg/group/cjttd/ , 提供有关药物的化学结构、靶标,疾病和通路的信息可以使用药物相似性预测没有靶点信息的化合物靶点。

④ChEMBL数据库,网址https://www.ebi.ac.uk/chembl/ , 查询某个靶点已报道的化合物、活性等信息及某个化合物在哪些靶点做过生物活性测试及数据库。

分子修饰纵横嵌套

在生信中常见的分子修饰套路研究比较多的包括甲基化,拷贝数变异,可变剪切。基于这些分子修饰变化,也延伸出了不同的生信分析套路,以及配套的数据库和基于代码的分析方法。

①cBioPortal数据库,网址http://www.cbioportal.org/ , 目前存储DNA拷贝数数据(每个基因的假定,离散值,例如“深度缺失”或“扩增”,以及log2水平),mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平(RPPA)数据,DNA甲基化数据和有限的临床数据,用户查询每个gene和每个样本的的遗传学改变,并检验复发(某些特殊癌症)。

②TSVdb数据库,网址http://www.tsvdb.com/index.html ,TCGA中的可变剪切分析工具。

③MethyCancer数据库,网址http://methycancer.psych.ac.cn/ , 整合了DNA甲基化数据和基因表达谱数据,将癌症与相关的基因联系起来。

三元变量一组交互

三元变量和二元交互两个模块,均可通过生信数据库/R代码分析找到合适的对应预测手段。基于药物有效成分预测靶分子,再加上靶分子预测其互作分子;基于二元交互的模块,也可以通过分子来预测富集的通路。熟稔生信套路之后,你将会发现处处皆可生信,哪哪都能预测。

三元变量两组交互

构建ceRNA网络,是生信研究多分子类型的分析中的必备保留项目。比较常见的分析方式是以miRNA为轴心,用多个数据库预测与之相互作用的mRNA或者lncRNA,又分别对其得到的mRNA或者lncRNA取交集,再导入Cytoscape中构建互作网络。另一种常见的生信数据库预测转录因子蛋白与DNA的交互,这一步可以与miRNA上游无缝衔接。

三元交互

三元变量两两相互作用,在生信数据库中可以对每个变量进行靶基因预测,两两取交集靶基因,缩小去搜寻三三变量两两成团的筛选范围。

细胞交互嵌套

生信中的单细胞测序技术,一次可对最高30万个单细胞进行测序,得到其中每一个细胞的各基因的表达谱信息,通过筛选质控、数据标准化分析、特征提取,降维分析、距离计算、非监督聚类、聚类展示等环节,最终可以得到不同的细胞亚群。一般认为一个群代表一种细胞类型,而好几个小群构成一个大的细胞类型,而美一个小群代表该细胞类型的亚型。每个亚群的差异基因具有特异性,这种特异性的基因在理论上可以作为该细胞类型的marker基因,反过来,marker基因也可以作为鉴定和推断细胞类型的手段。

主变量分裂与嵌套成环

在生信分析中,主变量可以分裂也可以聚合。

主变量可以分裂成一个基因家族的不同分子,几个共表达或者功能相似的分子,或者不同可变剪切下的多个剪接体等。得到的这些分子在可以通过“圈”进行合并的生物学功能和通路分析,免疫浸润分析;可以通过“联”构建互作网络,临床相关性、预后分析等分析流程,比单个基因分析多了数倍工作量。

主变量聚合是通过临床预测模型分析,构建筛选出单个分子类型或者多个分子类型的gene signature,再走圈联靠的一系列分析流程。

嵌套成环,依旧是通过多元变量两两生信分析预测,最后首尾取交集的模式。

写完以上文字,觉得生信数据库和分析方法无穷无尽,但总归都逃不过酸菜师父的套路框架和生信“挑圈联靠”的四字口诀。徒弟道行尚浅,仍需好好跟酸菜师父学习。以不变应万变,万变终究归根于不变。

放眼望去,近几年,很多人都有这样一种感受,那就是现在的科研要求越来越高,论文发表越来越难

这主要是因为当前竞争越来越大,优质科研成果及高水平论文越来越多,学术市场水涨船高。现在,要想在学术生涯获得良好发展,手握高分论文已经成了通行证。这不仅是对科研人员,对硕博生们也是如此。对于硕博生们来说,优质的论文更是获到学术自信,确保顺利毕业、获得满意工作的决定因素,根本无法忽视。

但是说到这里,很多人可能就抱怨了:现在发论文,真的很难很难啊!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
初学者注意!miRNA才是科研套路之济世良方
circRNA研究之:circRNA常用数据库介绍|分享
工具:miRNA数据库大全
推荐5个circRNA数据库
随便给你介绍几个蛋白互作的数据库
一文参透:lncRNA研究思路、模式和数据库应用...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服