打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
转录组学习二(数据下载)
转录组学习一(软件安装)
转录组学习二(数据下载)
转录组学习三(数据质控)
转录组学习四(参考基因组及gtf注释探究)
转录组学习五(reads的比对与samtools排序)
转录组学习六(reads计数与标准化)
转录组学习七(差异基因分析)
转录组学习八(功能富集分析)
任务
学习的文章是:《AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors》. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式。
<font color =orange>文章</font>
image
主要内容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)来证明AKAP95对转录后调控的 可变剪接具有重要作用。
其中对于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses:
测序平台:Illumina HiSeq 2500
取样物种:Homo sapiens和Mus musculus 的293个cells
数据类型: 双末端PE reads 2 x 50bp
参考基因组:人类参考基因组CRCh37/hg19
比对软件:TopHat(v2.0.13)
GTF文件类型:GRCh38.70
比对数据质控:过滤低质量比对reads(MQ > 30)
平均插入长度及标准差(mean insert sizes and the s.d.'s):Picard-tools(v 1.126)
计算reads count: HTSeq(v0.6.0)
差异基因分析:DESeq(v3.0)
差异外显子分析:DEXSeq(v3.1)
(RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)
GO富集分析:DAVID
<font color =orange>数据</font>
首先简单介绍NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)
GEO数据库(Gene expression Omnibus)就是当今最大、最全面的公共基因表达数据资源。简单说GEO就是一个公共数据库,包含大多数已在杂志发表文章的原始数据。
主页输入文章的登录号GSE81916。根据Overall design可知:1-8位RIP-seq数据,9-15为RNA-seq数据。其中9-11为AKAP95敲除后在人类293个cells里的数据,12-15为在小鼠ES cells里的数据。故我们需要下载9-15的RNA-seq数据。
另外一个重要的数据库就是SRA Run Selector(https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r)。同样搜索数据登录号GSE81916。得出关于这些数据的基本信息,其中我们所关注的RNA-seq数据的基本信息如
image
SRR原始数据文件为SRR35899{56..62}
其中56~58为人类数据 56为对照组,57, 58为控制组
59~62为小鼠的数据.实验处理方式如图:
最后下载SRR35899{56..62}这7个数据集
看了一下,这7个SRR数据需要10.38Gb 解压完全之后共占空间24.17Gb,数据量感觉"比较大"。
image
<font color =orange>下载</font>
总共10Gb的数据量下载起来还是需要挺长时间的。目前所知道的有两种下载方式:sratoolkit里自带的preftch程序,与直接循环脚本wget下载数据。
Sratoolkit下载
mkdir rna_seq_test && cd rna_seq_test###根据SRR数据结尾可知变化的数值主要是最后两个56~62故for i in `seq 56 62` ## shell的``与seq 两个用法donohup preftch SRR35899${i} & ##preftch与 后台运行done
preftch程序会将数据下载存储在$HOME/ncbi/public/sra/目录下。总共10.38Gb,慢慢下。
直接根据ftp网址用wget下载
ftp网址一般都是具有规律的。根据徐洲更所提各种网址会分为共同部分和变动部分
FTP网址(ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747)可以分为以下部分(可以自行删除探索其他网站部分)所有SRA数据的共同部分:ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果的文件
ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.
sra/SRP/SRP075/SRP075747: 进一步的分类检索。
可以知道这些文件的地址改变只有最后两个数字的不同。故循环脚本下载如下
for i in `seq 56 62`donohup wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899{$i}.sra &done
最后总共下载完10多G啊,截个图
image
2017/10/14 Sat.晚8点小结:对知识点: GEO、SRA数据库, 简单的循环脚本 做了进一步的熟悉。仍然存在的问题就是这些SRA数据包括的数据具体是什么,是如何设计实验方案的。这些预计在接下来解压的文件和后续分析中会有所解释。
参考文章
徐洲更 (伪)从零开始学转录组:读文章拿到测序数据https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484450&idx=1&sn=61784c91c745b0e3705bbc9145e69f3c&chksm=e9e02d83de97a495a87df0008977d2213736ab0505372c2f04a517ffcfcbf52747e911e89851&scene=21#wechat_redirect
青山屋主 如何从NCBI下载高通量数据http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
沈梦圆 PANDA姐的转录组入门(2):读文章拿到测序数据https://mp.weixin.qq.com/s/kRSIHuXtgZs6HWiPwYnSmA
GEO数据库简介https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
一个lncRNA项目的实战
高通量数据下载还能这样操作?
RNA-Seq数据用aspera高效批量下载(万事开头难)
如何从NCBI下载SRA数据
(伪)从零开始学转录组:读文章拿到测序数据
转录组入门(2):读文章拿到测序数据
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服