打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
新版TCGA数据下载详解

TCGA

肿瘤基因组图谱(TCGA)计划由美国National Cancer Institute(NCI)和National Human Genome Research Institute (NHGRI) 于2006年联合启动的项目,第一阶段为期三年,耗资1亿美元,研究的癌症类型包括多形性成胶质细胞瘤(GBM)、卵巢癌,并于2008年在Nature发表了GBM的研究成果。2009年9月,再投$2.75亿,针对20余种癌症进行大规模实验,目前总计36种癌症类型。


TCGA创建了一个基因组数据分析流程,可以大规模地收集、选择、分析基因组改变人体组织。


新版TCGA

Though TCGA is coming to a close in 2017, new NCI genomics initiatives, run through the NCI Center for Cancer Genomics(CCG), will continue to build upon the success of TCGA by using the same model of collaboration for large-scale genomic analysis and by making the genomics data publically available.

新版网站

https://portal.gdc.cancer.gov/


新版TCGA数据下载-方法一

1. 进入官网,单击页面右侧的Launch data portal按钮。


2. 链接到TCGA数据库升级后的下载界面(Genomic Data Commons Data Portal)。


3. 点击project进入到各个肿瘤项目中。


4.其中乳腺癌包含1098例病人的测序数据(DNA和RNA)和临床数据。 


如果只对RNA的表达数据感兴趣只需点击RNA-seq。


5. 跳转到这个界面,点击summary>光标移到Open点击。


6. 点击files共有3666个文件,每一个样本有三个类型表达文件。分别为FPKM.txt.gz,.FPKM-UQ.txt.gz,htseq.counts.gz。htseq.counts是 FPKM.txt的上游文件,htseq.counts可以通过不同的算法得到表达值,而其中FPKM是目前流行的算法之一。而FPKM-UQ.txt,编者认为是在计算read时是否只保留unique read。FPKM-UQ相对更加准确,但相对丢失了些数据。具体下载哪种类型数据,根据不同需求决定。


7. 回到summary,点击Add all fites to the cart。类似把需要下载的文件放入购物车一样。


8. 点击购物车,进入到以下界面。单击Manifest进行下载文件。


9. 专门的批量下载工具,官网https://gdc.nci.nih.gov/access-data/gdc-data-transfer-tool。下载与操作系统匹配的版本(支持Mac OS X、Windows 64bit、Linux 64bit)。


10.最终需要三个文件。

一是单击Manifes下载的gdc_manifest_20160724_081005(每次下载的文件名会不同),可以认为是种子文件。

二是模版,放着执行的命令。

三是运行的软件,但不是双击打开就能完全解决的。


11. 首先,打开模板,将刚下载的那个文件的名称“gdc_manifest_20160724_081005”复制并粘贴替换“模板”文件中标记的内容,并保存。


12. 然后双击gdc-client文件,打开文件后窗口又自动关闭,表示程序注册到电脑中。


13.首先单击电脑“开始”,在搜索框中输入cmd并点击回车键。如下图所示,本文件夹所在的根目录在e盘,然后,英文输入法状态下输入e:。接着,回车后再输入cd空格,复制所在文件夹的路径(E:\TCGA)并右键粘贴至cd空格后面,点击回车键。最后,复制模板中内容并右键粘贴在E:\TCGA后面,点击回车,程序开始自动下载文件。


14. 下载中途断开或出现ERROR,再次输入上页的代码后可继续下载。如果下载好的解压出错,可能是下载时出现问题,只需将出错文件删除,并重新输入代码即可继续下载。


新版TCGA数据下载-方法二

1. 网站:http://firebrowse.org/(建议使用火狐浏览器打开,360浏览器打开会出错。

2. 点击select cohort,选择癌症种类

3. 这时即可选择对应数据进行下载






 注意,前方高能 






HYY

科研部全部拥硕士学历

国家超级计算广州中心合作

天河二号15 万个 CPU核,耗时 0.5 小时,可进行75 万个小分子化合物的结合亲和力评估。


HYY医云超算为您提供多方位的大数据分析与挖掘服务,大规模药物筛选与计算服务。我们的计算团队立志成为科研领域的智慧大脑,做您科研事业的小助手,助力您的研究事半功倍。


TCGA数据分析

肿瘤数据库

数据统计

生存分析

Cox回归分析


▲向上滑动

联系方式


电话:020-29039963

Q Q:3498275176

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
TCGA数据库讲解与数据下载
TCGA RNASeq数据归一化工具使用例子
TCGA mRNA数据分析流程
数据挖掘专题 | GDC:我们不一样!
数据挖掘TCGA
easyTCGA:让初学者也能享受“征服”TCGA的喜悦
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服