基因组注释2. 非编码基因和编码基因预测tRNAScan-SE、rRNAmmer和Prodigal

上周，在介绍了《基因组注释1识别重复序列和假基因》的方法，今天为各位讲解基因组中非编码RNA和编码基因的预测。

非编码RNA的预测

非编码RNA是指一类本身不携带可以翻译为蛋白质的遗传信息的，可以执行多种生物学功能的RNA分子，主要有tRNA、rRNA、lncRNA、miRNA、siRNA、cirRNA、piRNA、snRNA等。

miRNA结合其靶向基因的mRNA序列结合，将mRNA降解或抑制其翻译成蛋白质，具有沉默基因的功能。tRNA （转运RNA）携带氨基酸进入核糖体，使之在mRNA指导下合成蛋白质。rRNA（核糖体RNA）与蛋白质结合形成核糖体，其功能是作为mRNA的支架，提供mRNA翻译成蛋白质的场所。snRNA（小核RNA）主要参与RNA前体的加工过程，是RNA剪切体的主要成分。

图1. 非编码RNA研究进展[1]

非编码RNA种类繁多，且结构特征各不相同，不像编码基因一样具有典型的结构特征，所以目前现有的非编码预测软件一般只是专门针对某一种类的非编码RNA，比如tRNAScan-SE预测tRNA、rnammer预测rRNA、snoScan 搜索带C/D盒的snoRNAs、SnoGps 搜索带H/ACA盒的snoRNAs、mirScan 搜索microRNA等。

Sanger实验室开发了Infernal软件，建立了1600多个RNA家族，并对每个家族建立了一致性二级结构和协方差模型，形成了Rfam数据库。采用Rfam数据库中的每个RNA的协方差模型，结合Infernal软件可以预测出已有RNA家族的新成员，只是特异性比较差。因此，在有专门的软件预测某一类非编码RNA时，优先采用该软件进行预测，如果没有相应的软件，则可以采用Infernal/Rfam方法进行预测。

这里简单介绍tRNAScan-SE和rRNAmmer的使用。

tRNAScan-SE

tRNAScan-SE 下载地址：http://trna.ucsc.edu/tRNAscan-SE/，同时提供web服务。

软件用法如下：

# 示例

tRNAscan‐SE ‐o tRNA.out ‐f rRNA.ss ‐m tRNA.stats genome.fasta

# 参数说明

‐A 适合于古细菌。该参数选择了古细菌特异性的协方差模型，同时稍微放宽了 EufindtRNA 的 cutoffs。

‐B 适合于细菌。默认情况下，不选择 ‐A ‐B ‐G 或 ‐O 参数，则适合于真核生物。

‐G 适合于古细菌，细菌和真核生物的混合序列。该参数使用 general tRNA 协方差模型。

‐O 适合于线粒体和叶绿体。选择该参数，则仅使用 Cove 进行分析，搜索速度会很慢，同时也不能给出 pseudogenes检测。

‐i 使用 Infernal cm analysis only。该参数设置后，需要 cmsearch 命令，但是 tRNAscan‐SE 软件包中貌似没有该程序，最终无法运行。

‐C 仅使用 Cove 进行 tRNA 分析。虽然从一定程度上提高了准确性，但是会极慢，当然不建议了。

‐o 将结果保存到文件。

‐f 将 tRNA 的二级结构结果保存到文件

‐m 将统计结果保存到文件。

# 输出结果说明：

结果示例：

说明：

在真核生物中，tRNA 由 RNA 聚合酶III 在核内转录生成 pretRNA，再进行加工生成有功能的 tRNA 分子（特别是一些 tRNA 序列还含有内含子）。若 tRNA 存在内含子，则结果文件中第 7 8 列会给出内含子区间，否则其值为 0。
tRNAscanSE的结果中, 如果 begin 比 end 的值大，则表示 tRNA 在负义链上。
第5列为tRNA类型，即该tRNA转运何种氨基酸。有些结果中第 5 列为 pseudogene，这表示其一级或二级结构比较差。
最后一列是 Cove Score，该分值最低阈值为 20 。该值是一个 log ratio值。ratio 是符合 tRNA 协方差模型概率与随机序列模型概率的比值。

rRNAmmer

rRNA的预测通常使用rRNAmmer（http://www.cbs.dtu.dk/services/RNAmmer/），该软件所使用的隐马尔科夫模型的训练数据集选用5S rRNA数据库和欧洲rRNA数据库，具有极高的准确率。

该软件用法：

# 示例

./rnammer ‐S bac ‐m lsu,ssu,tsu ‐xml ecoli.xml ‐gff ecoli.gff ‐h ecoli.hmmreport ‐f

ecoli.rRNA.fasta ecoli.fsa

# 运行参数说明

$ rnammer [options] sequence.fasta

‐S 指定输入序列的物种所属的界： arc bac 或 euk

‐m 所需要预测的moleculers： 'tsu' for 5/8s rRNA, 'ssu' for 16/18s rRNA, 'lsu' for 23/28s rRNA。如果全部进行预测，则该参数后为'tsu,ssu,lsu'。

‐multi 并行运算，预测正反两条链上所有的moleculers。最多并行运行6个计算。使用该参数，则不需要上一个参数。

‐f 生成的rRNA的fasta结果文件

‐h 生成的hmm报告结果

‐gff 生成的rRNA的gff2文件

‐xml 生成的xml结果文件

编码基因的预测

原核生物基因结构非常简单，其典型结构如下图所示。一个完整的原核生物基因结构是从基因的5'端启动子区域开始，到3'端终止区域结束。基因的转录起始位置由转录位点确定，转录过程直至遇到转录终止位点结束，转录的内容包括5'端非翻译区（5'UTR）、开放阅读框（ORF）或者编码区（CDS）及3'端非翻译区（3'UTR）。基因翻译的准确起止位置由起始密码子和终止密码子决定，翻译的对象为介于这两者之间的ORF（或CDS）。

图2. 原核基因结构图

真核生物基因远比原核的复杂，其基因结构如下图所示。大多数真核生物基因是由外显子（exon）和内含子（intron）两部分组成，在基因中，编码某一蛋白质不同区域的各个外显子被长度不同的内含子所隔离，形成镶嵌排列的断裂方式，所以真核生物基因有时会被称为断裂基因。每个外显子和内含子的连接区域都是一段高度保守和特异的碱基序列，内含子的5'端是GT，3'端是AG，这种方式GTAG法则，普遍存在于真核生物基因中，这一保守序列与剪切机制密切相关，它是RNA剪切的信号序列，有助于对编码区的识别。

图3. 真核生物基因结构图

从以上原核基因结构图和真核生物基因结构图可知，CDS（或ORF）是指从5'端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。准确地注释基因组的蛋白质编码基因是整个基因组分析中的核心问题之一，目前，最常用的蛋白质编码基因注释策略是de novo 预测和同源比对预测两种策略。

De novo 预测指的是通过分析基因组内编码区和非编码区的特征性结构及其差别（包括外显子长度分布、启动子、poly-A信号、不同区域的GC组分在基因中的密度和出现频率等），从基因组内找出可能的编码区（包括ORF和5’-NTRs以及其它重要信号）。基于该方法用于原核生物基因预测的应用软件常见有Glimmer、Genemark，用于真核生物基因预测的常见有Fgenesh、Genscan、Augustus、 SNAP和BGF。其实真核生物基因的复杂性，导致预测结果准确率非常低，目前主流方法为多样本、发育阶段的胁迫条件下的转录组测序，来完得较完整的转录本，比对至参考基因组以获得准确的基因注释。

表1. 基于从头预测的常见基因预测软件准确性的比较

同源比对预测，指的是根据相近物种具有相当数量的相似序列的原理，将参考物种的编码序列或已知的同源物种的蛋白氨基酸序列转换的DNA序列与待测物种的基因组DNA序列进行比对、聚类分析，找到新物种基因组中的编码基因区域，其中，比对方法采用的是类似于BLAST的BLAT比对方法。该方法的准确率比de novo 预测的要高，局限之处在于只适合预测较为保守的基因，假阴性较高。基于该方法的应用软件有RATT。

鉴于假阳性和假阴性的问题，最好的解决办法是结合de novo 预测和同源比对预测的策略，同时采用多种方法进行预测，然后对结果进行整合和权衡假阳性和假阴性的出现概率，最终得到的准确性较高的一致性注释结果。常用的整合软件有GLEAN、EVM等。

这里简单介绍prodigal工具的使用。

Prodigal

Prodigal（http://prodigal.ornl.gov/）是一款针对原核生物的基因预测工具，尤其是高GC的基因组，同时也适用于metagenomes，目前很多针对原核基因组的自动化注释工具（如prokka）都集成了Prodigal。其用法：

# 示例

./prodigal -i Escherichia_coli_M1.fasta -o E.coli_M1.gene.gff -f gff -a E.coli_M1.protein.faa -d E.coli_M1.gene.fna -g 11 -s E.coli_M1.gene.start_file -c -m -p single -q

# 参数说明

-i: Specify FASTA/Genbank input file (default reads from stdin).

-o: Specify output file (default writes to stdout).

-f: Select output format (gbk, gff, or sco). Default is gbk.

-g: Specify a translation table to use (default 11).

-a: Write protein translations to the selected file.

-d: Write nucleotide sequences of genes to the selected file.

-c: Closed ends. Do not allow genes to run off edges.

-h: Print help menu and exit.

-m: Treat runs of N as masked sequence; don't build genes across them.

-n: Bypass Shine-Dalgarno trainer and force a full motif scan.

-p: Select procedure (single or meta). Default is single.

-q: Run quietly (suppress normal stderr output).

-s: Write all potential genes (with scores) to the selected file.

-t: Write a training file (if none exists); otherwise, read and use the specified training file.

-v: Print version number and exit.

参考文献：

[1] Mendes Soares L M, Valcárcel J. The expanding transcriptome: the genome as the 'Book of Sand'.[J]. Embo Journal, 2006, 25(5):923.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。