例子:
@FCC0U6BACXX:6:1101:1418:2067#CTAGTTAT/1
CCGGTAAAGGATCGTATCCTGCGTGCACGATGGCGGTATTTGCGCTGGATACACCCATCCCAATATCAGCTGCTTTATCGATCAACAAGA
+
abbecceegggggiihhhfgihiifhhiihiiiihiZafgffhihg]aabdedddcab^ac`bcbb_]`bcccR]SSYSWQ[JT]`_^X[
6 | flowcell lane |
---|
1101 | tile number within the flowcell lane |
---|
1418 | ‘x’-coordinate of the cluster within the tile |
---|
2067 | ‘y’-coordinate of the cluster within the tile |
---|
#CTAGTTAT | index number for a multiplexed sample (0 for no indexing) |
---|
/1 | the member of a pair, /1 or /2 (paired-endor mate-pair reads only) |
---|
关于质量编码格式
质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:
Phred quality scores are logarithmically linked to errorprobabilities
PHRED QUALITY SCORE PROBABILITY OF INCORRECT BASE CALL BASECALL ACCURACY
10 1 in 10 90 %
20 1 in 100 99 %
30 1 in 1000 99.9 %
40 1 in 10000 99.99%
50 1 in 100000 99.999 %
Phred quality scores Q are defined as a property which islogarithmically related to the base-calling error probabilitiesP.
Q=-10log10P
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案:
Sanger,Phred qualityscore,值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw readdata)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
Solexa/Illumina 1.0, Solexa/Illumina qualityscore,值的范围从-5到63,对应的ASCII码从59到126,对于测序数据,得分一般在-5到40之间;
Illumina 1.3+,Phred qualityscore,值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
Illumina 1.5+,Phred qualityscore,但是0到2作为另外的标示,详见http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+
最重要的是通过下面的这个脚本,我知道了我的测序采用的是phred64这个编码。