SRA数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 Complete Genomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。
很多课题组有进行二代测序的需求,但苦于经费问题最后都退而求其次选择从数据库中挖掘已有数据,今天我们就来一波十分钟入门之如何从SRA数据库下载测序原始数据。此处我以下载一个小RNA测序数据为例,简单介绍测序数据下载。
1)登入NCBI的SRA数据库https://www.ncbi.nlm.nih.gov/sra/点选SRA Toolkit Documentation。
2)在SRA Toolkit Documentation页面点选SRA Toolkit Installation and Configuration Guide。
3)通过链接或命令行方式下载SRA Toolkit(推荐使用红框中链接下载,下载后解压就可以使用了,亲测很方便)。解压后可以看到里面有一个bin文件夹,该文件夹中存有各种测序下载和数据格式转换工具。此处展示了bin文件夹中的部分工具,红框中的prefetch和fasterq-dump工具稍后会用到,prefetch用来下载数据,fasterq-dump将数据转换为fastq格式,方便后续分析。
4)下载工具准备完毕,现在可以来搜索一下感兴趣的研究内容。此处我挑选了一个人类肺癌样本的小RNA测序数据SRR7189582。
联系客服