关于转录因子列表我在生信菜鸟团公众号看到了有一个介绍:TCGA数据挖掘常见基因集合,首先是Cancer Manag Res. 2020的文章《Prognostic and Predictive Value of a 15 Transcription Factors (TFs) Panel for Hepatocellular Carcinoma》就提到了:
然后是2021的文章《A Transcription Factor-Based Risk Model for Predicting the Prognosis of Prostate Cancer and Potential Therapeutic Drugs》提到一个出处:
这两个数据库关于转录因子的收录,都是接近于2000个基因。
首先是2018的CELL文章:《The Human Transcription Factors》
然后是2020的NBT文章:《A comprehensive library of human transcription factors for cell fate engineering》
详见:http://cistrome.org/db/#/stat
我下载里面的 human_factor_full_QC.txt 文件,然后统计了一下,在人类这个研究领域,有chip-seq数据的转录因子是1359个,略低于上面的两个网页数据库里面的1600~2000的数量。
代码如下所示:
library(RcisTarget)
# Select motif database to use (i.e. organism and distance around TSS)
data(motifAnnotations_hgnc)
# 这个RcisTarget包内置的motifAnnotations_hgnc是16万行
# 可以看到每个转录因子基因有多个motif,但是不到2000个转录因子
motifAnnotations_hgnc[1:4,1:4]
length(unique(motifAnnotations_hgnc$TF))
可以看到是1839个转录因子:
> dim(motifAnnotations_hgnc)
[1] 163192 7
> motifAnnotations_hgnc[1:4,1:4]
motif TF directAnnotation inferred_Orthology
1: bergman__Abd-B HOXA9 FALSE TRUE
2: bergman__Aef1 ZNF8 FALSE TRUE
3: bergman__Cf2 ZNF853 FALSE TRUE
4: bergman__EcR_usp NR1H2 FALSE TRUE
> length(unique(motifAnnotations_hgnc$TF))
[1] 1839
这些转录因子的基因列表很容易导出。
常规表达量矩阵很容易根据分组进行合理的差异分析后,经过合理的阈值筛选统计学显著的上下调基因列表,然后就可以去独立进行转录因子注释。
一种方法是超几何分布检验,就需要每个转录因子都有对应的靶基因列表,你可以把每个转录因子类比于一个通路,各自独立去跟上下调基因取交集,计算p值。
另外一个方法是上面提到的RcisTarget有一个AUC方法,详见:
我们很容易注释后进行统计,可以看到上下调基因各自有一千多,但是富集到的统计学显著的转录因子各自就100多个,然后全部取交集可以看到非常少, 也就是说某个转录因子调控的靶基因显著的表达量改变但是它本身并不需要有显著的表达量改变 :
不过我总觉得,另外一个展示交集的可视化方法更好:
两种可视化代码如下所示:
VENN.LIST=list(
tf_up=anotatedTfs$gene_up,
tf_down=anotatedTfs$gene_down,
gene_up=gene_up,
gene_down=gene_down
)
# 上面的 VENN.LIST 数据无法给大家,是项目真实数据。
require("VennDiagram")
venn.plot <- venn.diagram(VENN.LIST , NULL,
fill=c("red", "blue",'green','black'),
alpha=c(0.5,0.5,0.5,0.5), cex = 2, cat.fontface=4,
category.names= names(VENN.LIST),
main="venn.diagram")
grid.draw(venn.plot)
library(UpSetR)
p=upset(fromList(VENN.LIST), order.by = "freq")
p
p$New_data
首先把前面的提到的多种转录因子基因列表出处摸索一下,然后绘制韦恩图看看交集情况。
联系客服