打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
谁能告诉我,这数据测毁了么?

本次目的与任务:了解fastq测序数据

需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量。

作业:理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程,并发在论坛上面。


SRA文件转换为fastq文件

用sratoolkit将NCBI上下载的sra文件转换成fastq文件,以便进行下一步的QC。该工具的安装与介绍在转录组入门1中已经有所介绍。这里我再回顾一下sratoolkit的使用:

    阅读官方文档

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc ,我们的目的是把测序sra文件转换为fastq文件,因此点击“fastq-dump”进一步阅读。

    查看本地帮助

从进入的这个页面我们能大概了解到fastq-dump命令的基本用法。

然后我在本地的CentOS上又运行了帮助命令 来查看本地版的命令说明。

  1. fastq-dump -h #显示帮助

显然,本地的帮助说明更详细一点。

先看用法:fastq-dump [各种参数] <输入文件的登录号或者路径>

其中,[各种参数]在帮助中有详细介绍,根据博主@徐洲更以及@沈梦圆的文章介绍,我们常用到的参数主要是以下两部分的:

关于输出:

  1. -O 指定输出路径

  2. --gzip 指定输出格式为gzip压缩格式(fastqc软件可以直接识别gzip压缩的文件)

  3. --bzip2 指定输出格式为bzip2压缩格式

  4. **多个文件参数**

  5. --split-3 如果是双端测序数据,则输出两个文件,如果不是则只输出一个文件。

明白了fastq-dump的常用参数,我们就得到了转换sra文件的套路

  1. fastq-dump --gzip --split-3 -O path -A accession

具体到我们下载的数据,可以直接用@徐州更博文中的命令进行转换

  1. for i in `seq 56 62`

  2. do

  3.    fastq-dump --gzip --split-3 -O ./fastq/ -A SRR35899${i}.sra

  4. done

以上命令在vim中编辑,保存为.sh文件后,通过bash运行,注意seq前的撇不是单引号。

查看转换结果

转换后生成一系列以.sra1.fastq.gz以及.sra2.fastq.gz结尾的压缩文件。


fastqc检测测序文件质量

多个文件批量进行QC

进入转换后fastq.gz文件所在的文件中,用以下命令生成批量运行的脚本

  1. ls ./*fastq.gz | xargs -i echo fastqc -o ./fastqc_result --nogroup {} \& > fastqc.sh

运行结果会生成一个名称为fastqc.sh的脚本,运行该脚本即可对当前文件夹下的fastq.gz文件进行QC。

  1. bash fastqc.sh

查看QC结果

    单独查看

关于单独的QC结果文件,大家可以看我以前的几个入门帖子了解基本知识。 https://zhuanlan.zhihu.com/p/24608131?group_id=871001548837228544

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
科研:SD大鼠肺动脉解剖,RNA测序生信分析部分代码
fastq格式文件处理大全(一)
转录组入门(3):了解fastq测序数据
省事地获取已公开测序数据的下载链接(.sra|.fastq.gz)
SRA、SAM以及Fastq文件高速下载方法
生信菜鸟团博客2周年精选文章集(6)三个最基础生信软件教程
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服