1. UCSC
进入UCSC官网下载页面》拉到Dec. 2013 (GRCh38/hg38)页面》选择Full data set》点击下载hg38.fa.gz
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
同时,也可以通过hg38基因组浏览器页面进行可视化查看,组装,注释情况。
2. NCBI
进入NCBI的hg38基因组浏览器页面,
最新版本为:
Homo sapiens (human)
Reference genome: Homo sapiens (assembly GRCh38.p11) # 版本号
Release date: June 14, 2017 # 版本更新时间
Download sequences in FASTA format for genome, transcript, protein
Download genome annotation in GFF, GenBank or tabular format
3. Ensembl
Homo sapiens (GRCh38.p11) # 最新版本
基因组序列下载FTP下载页面
http://asia.ensembl.org/info/data/ftp/index.html
同时,可以下载GTF GFF3注释文件。
hg38参考基因组,以FASTA的数据形式保存。
以NCBI的Y染色体基因组为例,FASTA序列页面
Homo sapiens chromosome Y, GRCh38.p7 Primary Assembly
NCBI Reference Sequence: NC_000024.10
NC_000024.10 Homo sapiens chromosome Y, GRCh38.p7 Primary Assembly
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
...
...
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCTAACCCTAA
CCCTAACCCTAACCCTAACCCTAACCCTCTGAAAGTGGACCTATCAGCAGGATGTGGGTGGGAGCAGATT
每行按71个碱基进行格式化排版,共57227415 bp。
序列组成:
1)连续的N值代表;任意碱基,未知碱基
2)ATCG四种碱基,一般统一格式化为大写。
如碱基字母大写代表是CDS(编码序列)
如碱基字母小写代表是内含子/UTR(非翻译区)
2)masked genome 代表被遮罩基因组
重复区域能用小写字母或者“N”/“X”来表示。
当RNA测序应用时,通过使用masked基因组,可以加速比对的过程。
当DNA测序应用时,如对重复序列感兴趣,可以使用非masked基因组。
GTF全称为gene transfer format,主要是用来对基因进行注释。
GFF全称为general feature format,这种格式主要是用来注释基因组。
现Ensembl已将hg38的注释文件升级到GFF3,其主要功能为基因位点注释。
GMOD官网对GFF、GFF2、GFFF进行详细的说明:http://gmod.org/wiki/GFF#GFF3
GFF3 is the most recent flavor of GFF (General Feature Format), a simple tab delimited format for describing genomic features. GFF3 allows multi-level grouping and multi-level descriptive attributes. If you are unfamiliar with GFF and its flavors it is important that you read this GFF overview to decide which flavor is best suited to your needs. The current document describes only the GFF3 flavor.
GFF3 is both more powerful and more restrictive than other GFF formats. Argo only supports a subset of GFF3 features.
GFF3 files are directly editable in Argo.
gtf文件是以tab键分割的9列组成,以下为每一列的对应信息:
联系客服