拿到数据后想上传到NCBI数据库,奈何攻略千千万,一个不想看,尤其是数据库中一连串的英文注意事项和步骤看起来也是略烦,那不妨看看我这个上传步骤,可否博您一笑?
上传步骤
BioProject ID的获得
1. 在NCBI 主页右上角(http://www.ncbi.nlm.nih.gov/genomes/mpfsubmission.cgi)My NCBI登录系统中创建新的账号(已有就不需要),点击Register for an account 创建账号:
2. 填写信息
3. 登陆BioProject(https://submit.ncbi.nlm.nih.gov/),获取一个BioProject ID
4. 点击New submission,进行提交
5. 填写一系列信息
6. 获得BioProject ID,以PRJNA字符为前缀,并且获得通过Autogenerate(自动分配)方式获得项目唯一的 Locus Tag Prefix值,比如下面例子中的4932,该值用于注释结果locus_tag这一项的前缀(注释文件必须含有该值!)如下图中红框所示:
组装结果的准备
1. 生成template (*.sbt)文件,填写submission template form(http://www.ncbi.nlm.nih.gov/WebSub/template.cgi)。template form如下图所示(需要填写提交人的各项信息,姓名,地址,单位,联系方式等等,还有文章的题目以及前面获得的 BioProject ID):
这里的BioSample指的就是前面的submission
完成后,点击最下方'Create Template',将该文件以*.sbt格式储存,备用。
2. 准备Contig文件。Contigs序列文件,无gap,即序列中不含N,每个文件不超过10,000条序列。格式:contig文件为标准fasta格式,第一行是描述信息,以“>”开头;第二行起是序列信息,每行长度不超过80个字符。如下图所示:
3. 注释文件(可选)。若有符合 NCBI注释标准的注释文件,该文件与*.fsa文件命名相同,后缀为*.tbl。
NCBI注释标准:Prokaryotic Genome Annotation Guide
利用tbl2asn软件生成符合NCBI上传规则的*.sqn 文件
1. 准备生成*.sqn 文件。该文件需要两个文件:1)前面所生成的*.sbt;2)诺禾提供的contig文件:*.fsa;3)(如果有),符合 NCBI注释标准的*.tbl注释文件。
2. 下载 tbl2asn软件,下载地址如下:
ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/tbl2asn/
该软件说明如下:
http://www.ncbi.nlm.nih.gov/genbank/tbl2asn2.html
3. 将以上两个文件置于 tbl2asn 软件目录下,进入命令提示行模式(开始-运行-cmd),进入 tbl2asn软件目录,输入如下命令后回车运行(注意空格和””号):
tbl2asn.exe –i *.fsa –t *.sbt –a s –V v –Z log –j “[organism=*][strain=*]”
[organism=*][strain=*]:*部分的内容需要自行添加;顺利运行后,tbl2asn 将出现由*.fsa 命名的三个文件:*.sqn,*.val,log(文件名相同后缀不同)。*.sqn文件用于最后的提交作业;一般来说,*.val文件大小为 0 k则整个转换过程无问题。
关于参数organism,strain使用时候的注意事项以及内容请查看:
http://www.ncbi.nlm.nih.gov/Sequin/modifiers.html
以及http://www.ncbi.nlm.nih.gov/Sequin/sequin.hlp.html#ModifiersPage
tbl2asn软件的其他参数说明请参考:
http://www.ncbi.nlm.nih.gov/genbank/tbl2asn2
4. 检查输出的 *.val文件和报告文件。查看*.val文件内是否提示错误信息,如果有,找出并解决,以减少上传审核时间。
5. 生成 AGP文件:(该文件由诺禾提供)
组装序列的提交
1. 使用GenomesMacroSend工具上传前面步骤所得到的*.sqn 文件和 AGP文件。若有符合NCBI注释标准的注释文件也可一起上传。网址如下:
https://submit.ncbi.nlm.nih.gov/subs/wgs/
2. 按照上传引导填写相应信息,上传*.sqn,AGP.file,*.seq文件,整个过程需要使用一致的物种名称。
3. 最后点击Submit,上传成功 NCBI会反馈如下信息,包括临时的GDsub号(Submission,SUB前缀,待审核通过之后才会给予正式编号),之前申请的BioProject号(Title),以及状态(Status),accession number。
4. 完成前两步后会收到一封NCBI的确认邮件。
而完成图,区别在于Create Template后,多了*.cmt(The Genome-Assembly-Data Structured Comment File)文件的生成,包括组装方法和版本、测序基因组覆盖度、测序策略等。
填写 the Structured Comment Template page:
https://submit.ncbi.nlm.nih.gov/structcomment/genomes/
因为没有AGP文件,最后使用GenomesMacroSend工具上传*.sqn 文件即可。
微生物业务线 张黎杰丨文案
王 迪丨编辑
联系客服