打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如何快速入门生物信息学

在二代测序之前,生物学家处理的生物数据大多数可以通过手工完成。因为数据量不大,所以都能在文献中附上自己用到的序列,NCBI也会每年出几本纸质版的数据集合。

但是二代测序之后,一切都改变了。原先可能只需要将1000多条序列与基因组比对,而现在却要将成千上亿序列比对到参考序列上。处理这类生物大数据,对计算机性能和软件算法都是一种挑战。

在目前高通量测序领域,根据测序的文库类型,可以分为DNA-Seq,RNA-Seq,ChIP-Seq等。DNA-Seq又可以继续分为全基因组测序(WGS),全外显子测序(WES),简化基因组测序()如RAD-Seq)。
RNA-Seq也可以继续分为mRNA-Seq, lncRNA-Seq等。目前比较火的单细胞序(single-cell Sequencing),则是各种测序在单个细胞水平上的操作。

刚进入这个领域,你一定会迷惘,不知所措,到底要学哪一个? 我的建议是学习RNA-Seq,尤其是差异基因座表达分析这一部分。因为在这个方面,体系趋于成熟,大部分问题都能通过搜索引擎得到解答。因此我根据自己的学习感悟,将RNA-Seq 差异基因表达分析流程分为8步进行介绍,从环境准备开始,到从文献中下载数据,还有下载参考基因组和注释信息,接着是序列比对,基因read计数,在到差异基因表达分析,最后是富集分析。中间还需要进行质量控制以及可视化。

本图来自于 RNA-Seq Data Analysis-A pratical approach

(伪)从零开始学转录组全系列

(伪)从零开始学转录组(1):软件安装

(伪)从零开始学转录组(2):读文章拿到测序数据

(伪)从零开始学转录组(3):了解fastq的测序质量

(伪)从零开始学转录组(4):了解参考基因组及基因注释

(伪)从零开始学转录组(5) 序列比对

(伪)从零开始学转录组(6):read计数

(伪)从零开始学转录组(7):差异基因表达分析

 (伪)从零开始学转录组(8):富集分析

我希望这能帮到你,当然这也是我学习的一次总结。顺便解释一下为什么这个系列是(伪)的。

第一: 只不是真正的零基础教程,我预设了你有一定的Linux基础。

第二:因为很多人问我自己零基础如何入门生物信息学呀?我觉得他想听到的回答的句型应该是 只要XXX, 就能XXX, 就好像一些《21天学会XXX》书名那样。如何快速入门生物信息学的答案就是花上足够长的时间学习。

对于学霸而言,他们知道能力是通过不断积累而形成的,而对于学渣而言,他们希望的是最后的押题卷

因此,实践这一个系列,你未必真的能顺利入门生物信息学。你需要补习操作系统基础(Linux),你需要掌握基础的统计学知识(概率分布,统计推断等),你还得掌握几门编程语言,R,Python,Java, C等。 在编程语言上的掌握,不只是你会调用软件包,还得根据语法结构写自己的脚本。当然你还得保证你的

当你看到目前那么多测序类型和种类繁多的数据分析方法,你肯定会慌乱,觉得自己无法掌握那么多的数据分析方法。请冷静下来,安心把基础打扎实。如果你不了解比对的原理,你就难以通过调整默认参数,用来适应当前的研究。如果你不懂得基础的统计学原理,对照组和实验组都只有一个样本,还企图算出p值,当然p值本身都是议论纷纷。还有富集分析,你要是不知道叫做基因本体论(GO),结果你都未必能看懂。

虽然高通量数据分析方法变化很快,但是先通过RNA-Seq入门生物信息,知道这是什么,能做什么,然后再把基础打扎实,那么就能以不变应万变。

如果你觉得再微信上看文章不舒服,我还建立了专门的GitHub用于更新我的文章和数据。https://github.com/xuzhougeng/Learn-Bioinformatics。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
高通量测序数据分析:RNA
常用生物信息学软件及参考文献
生物信息学常用名词解释(二)
CPGAVAS2命令行版 | 搞个大事情,一次准确高效的注释300个叶绿体基因组?!
RNAseq数据的分析流程-糗世界
RNA-seq结果怎么才能看懂? 答案全在这些图里---(1)测序质量篇
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服