TCGA是个热门的数据库,lncRNA是个热门的研究方向,怎么样才能简单快速的从TCGA中得到lncRNA的表达数据?
今天就来跟大家分享一个基于TCGA、CCLE等其他数据库进行lncRNA识别与整理,可免费在线分析及数据下载等功能强大的数据库-TRANIC!
TANRIC is an open-access resource for interactive exploration of lncRNAs in cancer. It characterizes the expression profiles of lncRNAs in large patient cohorts including TCGA, CCLE and other independent datasets.
官方主页:
http://ibl.mdanderson.org/tanric/_design/basic/index.html
最新版本为2015/04/16 - Version 1.0.6 released.
TRANIC主体框架:
https://bioinformatics.mdanderson.org/main/TANRIC:Overview
http://cancerres.aacrjournals.org/content/75/18/3728
比较关键的一点是关于lncRNA识别及表达定量,我们直接看官方的描述:
GENCODE数据库,TRANIC使用的是v19版本,可下载:
ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_19/gencode.v19.long_noncoding_RNAs.gtf.gz
TRANIC收录的数据展示(部分):
http://ibl.mdanderson.org/tanric/_design/basic/summary.html
数据可在线免费下载,链接:
http://ibl.mdanderson.org/tanric/_design/basic/download.html
以TCGA-COAD为例,下载得到压缩文件TCGA-COAD-rnaexpr.zip,解压可见数据描述信息TCGA-COAD-rnaexpr-META.tsv及表达谱文件TCGA-COAD-rnaexpr.tsv,格式如下:
第一列可见,共计12727个lncNRA在COAD患者中的表达数据。
基于TANRIC数据库进行lncRNA研究的文章也比较多,举个例子以作参考:
对于没有权限下载到TCGA原始数据,或者不知道如何从TCGA中提取并整理lncRNA表达数据的小伙伴来说,TANRIC是个不错的选择,因为下载下来的即整理好的表达矩阵格式!但是,TRANIC数据库中来源于TCGA的只有20种癌型,且数据较早期(最新2015/04/16)所以包含的样本量也远少于目前TCGA中收录的数据,且多数癌型并无正常配对样本。
联系客服