16s分析之Qiime中一些常用的命令学习笔记

首先提出一个问题：我们在测序公司得到数据，可能他们会给跑出otu.table文件，但是没有进化树，在影响到了后续的Aplha，beta多样性分析：

让我们开始解决这个问题：

# 物种注释（如果没有注释文件的话）

assign_taxonomy.py -ouclust_assigned_taxonomy -i rep_seqs.fa \

# 文本OTU表转换为BIOM：（公司给你的文件如果是txt文件的话）

biom convert -i otu_table.txt -ootu_table.biom --table-type="OTU table" --to-json

# 添加物种信息至OTU表最后一列，命名为taxonomy

biom add-metadata -i /otu_table.biom --observation-metadata-fprep_seqs_tax_assignments.txt -o otu_table_tax.biom --sc-separated taxonomy--observation-header OTUID,taxonomy

#跑进化树文件：

#对齐

align_seqs.py -i rep_seqs.fa -opynast_aligned_seqs

#过滤

filter_alignment.py -o pynast_aligned_seqs/-i pynast_aligned_seqs/rep_seqs_aligned.fasta

#做树

make_phylogeny.py -ipynast_aligned_seqs/rep_seqs_aligned_pfiltered.fasta -o rep_set.tre

到此这个问题已经解决，那么还有什么问题是我们关注的呢？

有时候我们需要对otu表进行筛选，毕竟open_方法得到的otu数目太多，这个时候：

#比如挑选万分之一丰度的

filter_otus_from_otu_table.py--min_count_fraction 0.0001 -i otu_table.biom -o otu_table0001.biom

#有时候我们需要统计fa文件又多少条序列（http://qiime.org/scripts/count_seqs.html）：

count_seqs.py -i in.fasta

count_seqs.py -i "*.fasta"#统计所有fa文件序列数量

#有时候我们需要根据挑选的otu编号来过滤需要的otu序列数（http://qiime.org/scripts/filter_fasta.html）

filter_fasta.py -f inseqs.fasta -ootu_map_filtered_seqs.fasta -m otu_map.txt

#用于去除singletons，也可以去除较少的序列数，设置-n即可（http://qiime.org/scripts/filter_otus_from_otu_table.html）：

filter_otus_from_otu_table.py -iotu_table.biom -o otu_table_no_singletons.biom -n 2

#之前分享NMDS的R语言分析教程，现在我们用Qiime可以简单做一下(http://qiime.org/scripts/nmds.html）：

nmds.py -i beta_div_weighted_unifrac/ -obeta_div_weighted_nmds_results/

#再比如我们的fa文件是单个样本分开的，而且没有添加序列名，这个时候用到，参考（http://qiime.org/scripts/add_qiime_labels.html）：

add_qiime_labels.py -i fasta_dir -mexample_mapping.txt -c InputFileName -n 1000000 -o combined_fasta

Qiime功能很强大，但是我们也有一些其他运行很顺手的工具想在Qiime中使用，这里推荐几种工具，附上安装代码：

1：fastqc软件：

# 下载

fastqchttp://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

wgethttp://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip

#解压文件

unzip fastqc_v0.11.5.zip

cd FastQC

#添加执行权限：

chmod +x fastqc

# 想让fastqc可以全局使用，我们可以添加一个目录，比如说~/bin，然后创建链接（快捷方式）到这个目录下，这样我们就可以全局使用程序了。

# 创建 ~/bin 目录

mkdir -p ~/bin

# 将~/bin 文件夹加到PATH：

echo 'export PATH=~/bin:$PATH' >>~/.bashrc

source ~/.bashrc

在~/bin生成fastqc快捷方式

ln -s ~/src/FastQC/fastqc ~/bin/fastqc

# 测试这个工具是否可用。

fastqc –h

我们测序得到的文件多数是fq和fa，那么什么样的软件可以很好编辑这两种文件呢？

2.安装seqkit软件：成功：专门用于处理测序序列文件，非常强大

seqkit：http://bioinf.shenwei.me/seqkit/download/

chmod +x seqkit

ln -s ~/src/seqkit_linux_amd64/seqkit~/bin/seqkit

比如我使用它取反向互补序列：

seqkit seq rep_seqs.fa -r -p >cs.fa

学习永无止境，分享永不停歇！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。