转录因子列表哪家全

两个网页工具

关于转录因子列表我在生信菜鸟团公众号看到了有一个介绍：TCGA数据挖掘常见基因集合，首先是Cancer Manag Res. 2020的文章《Prognostic and Predictive Value of a 15 Transcription Factors (TFs) Panel for Hepatocellular Carcinoma》就提到了：

The TF list was downloaded from the Human Transcription Factors website (http://humantfs.ccbr.utoronto.ca/.

然后是2021的文章《A Transcription Factor-Based Risk Model for Predicting the Prognosis of Prostate Cancer and Potential Therapeutic Drugs》提到一个出处：

Atotal of 1665 transcription factors were obtained from the Animal TFDB database。（AnimalTFDB 3.0 ），链接：http://bioinfo.life.hust.edu.cn/AnimalTFDB/#!/

这两个数据库关于转录因子的收录，都是接近于2000个基因。

两个文献

首先是2018的CELL文章：《The Human Transcription Factors》

然后是2020的NBT文章：《A comprehensive library of human transcription factors for cell fate engineering》

刘小乐的Cistrome数据库

详见：http://cistrome.org/db/#/stat

我下载里面的 human_factor_full_QC.txt 文件，然后统计了一下，在人类这个研究领域，有chip-seq数据的转录因子是1359个，略低于上面的两个网页数据库里面的1600~2000的数量。

RcisTarget包里面的motifAnnotations_hgnc数据

代码如下所示：

library(RcisTarget)
# Select motif database to use (i.e. organism and distance around TSS)
data(motifAnnotations_hgnc)
# 这个RcisTarget包内置的motifAnnotations_hgnc是16万行
# 可以看到每个转录因子基因有多个motif，但是不到2000个转录因子
motifAnnotations_hgnc[1:4,1:4]
length(unique(motifAnnotations_hgnc$TF))

可以看到是1839个转录因子：

> dim(motifAnnotations_hgnc)
[1] 163192      7
> motifAnnotations_hgnc[1:4,1:4]
              motif     TF directAnnotation inferred_Orthology
1:   bergman__Abd-B  HOXA9            FALSE               TRUE
2:    bergman__Aef1   ZNF8            FALSE               TRUE
3:     bergman__Cf2 ZNF853            FALSE               TRUE
4: bergman__EcR_usp  NR1H2            FALSE               TRUE
> length(unique(motifAnnotations_hgnc$TF))
[1] 1839

这些转录因子的基因列表很容易导出。

上下调基因进行转录因子注释

常规表达量矩阵很容易根据分组进行合理的差异分析后，经过合理的阈值筛选统计学显著的上下调基因列表，然后就可以去独立进行转录因子注释。

一种方法是超几何分布检验，就需要每个转录因子都有对应的靶基因列表，你可以把每个转录因子类比于一个通路，各自独立去跟上下调基因取交集，计算p值。

另外一个方法是上面提到的RcisTarget有一个AUC方法，详见：

我们很容易注释后进行统计，可以看到上下调基因各自有一千多，但是富集到的统计学显著的转录因子各自就100多个，然后全部取交集可以看到非常少，也就是说某个转录因子调控的靶基因显著的表达量改变但是它本身并不需要有显著的表达量改变：

某个转录因子调控的靶基因显著的表达量改变但是它本身并不需要有显著的表达量改变

不过我总觉得，另外一个展示交集的可视化方法更好：

可视化方法更好

两种可视化代码如下所示：

VENN.LIST=list(
  tf_up=anotatedTfs$gene_up,
  tf_down=anotatedTfs$gene_down,
  gene_up=gene_up,
  gene_down=gene_down
)
# 上面的 VENN.LIST 数据无法给大家，是项目真实数据。
require("VennDiagram")
venn.plot <- venn.diagram(VENN.LIST , NULL,
                          fill=c("red", "blue",'green','black'),
                          alpha=c(0.5,0.5,0.5,0.5), cex = 2, cat.fontface=4,
                          category.names= names(VENN.LIST),
                          main="venn.diagram")
grid.draw(venn.plot)

library(UpSetR)
p=upset(fromList(VENN.LIST), order.by = "freq")
p
p$New_data

学徒作业

首先把前面的提到的多种转录因子基因列表出处摸索一下，然后绘制韦恩图看看交集情况。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。