探索人类基因组“荒漠”中的秘密(图)

2012年10月01日 23:45
来源：中国科技网

ENCODE是“DNA组成元素百科全书”的缩写，是继人类基因组计划（HGP）之后的又一大型国际合作项目。来自英国、美国、西班牙、新加坡和日本32个研究机构的442名科学家历时5年，耗资1.5亿美元，获得了迄今最详细的人类基因组分析数据，这也是“人类基因组计划”之后国际科学界在基因研究领域取得的又一重大进展。该项目旨在识别出人类基因组序列中的所有功能区，包括转录、转录因子联合、染色质结构和组蛋白修饰区，现在科学家们可以确认，人类基因组中80%的成分至少有一种生化功能。

人类基因组计划与ENCODE计划之间有着承上启下的关系。人类基因组计划发现基因组中仅有1.5%的序列是给蛋白质编码的，其余98.5%的序列以前被认为是“垃圾”。这些“垃圾”也被称作基因之间的“荒漠”，ENCODE计划正是要探索这些“荒漠”中的秘密。

研究人员对147个细胞类型进行了计算机分析、生物化学试验以及测序研究。他们在人类DNA中发现了400万个位点，作用相当于控制基因活性的开关。这些开关距离被它们调控的基因或近或远，并作用于不同细胞类型的不同结合体上，从而赋予了每个细胞类型以独特的基因组身份。在一个数据库中，ENCODE已经创建了一张图谱以展示所有不同碱基的作用。

资助ENCODE的美国国家人类基因组研究所项目主管埃利斯·范戈尔德说：“它就像人类基因组的谷歌地图。”利用谷歌地图，一个人可以选择不同的视角来查看景观的不同方面。同样，在ENCODE图谱中，人们也能从染色体水平放大单个碱基，并且在查看这些碱基是否会产生RNA，或是否为DNA调控蛋白质的结合位点之间切换。

深入基因组内部

“人类基因组计划”绘制出了人体生物学的蓝图，但人们很快发现，阅读这份蓝图的指导手册充其量只算是草稿。已标记的30亿个编码蛋白质字母，只占人类基因组的1%多一点，包含约20000个基因——这只是在一大片未知的陌生环境中识别出一点稍微熟悉的事物而已。许多生物学家怀疑，真正体现人类复杂性的，可能是那些藏在“荒漠”中的信息。

ENCODE计划旨在完成人类基因组计划遗留的任务，为潜藏在“荒漠”中的功能性DNA序列编制目录，以了解它们会在什么时候、在哪些细胞里被激活，并追踪它们对染色体包装、调节和读取产生的影响。

在人类基因组测序终止前，美国国家人类基因组研究所还在争论是否要在项目中对DNA功能片段做出系统地识别。2003年，它邀请生物学家提出一个先期实验项目，对基因组中1%的部分进行深入研究，以确定哪些实验技术可能对整个研究最有效。

先期实验改变了生物学家对基因组的看法。他们发现只有少数DNA参与了制造编码蛋白的信使RNA，许多基因组被“转录”成非编码的RNA分子，而其中一些目前已知是非常重要的基因表达调节器，而且许多重要的调节序列也会迅速进化。他们于2007年公布了这些发现，不久之后，美国国家人类基因组研究所再次邀请科研人员将研究工作扩展到整个基因组。这一“升级”正像新一代测序机的开始，数据采集变得更快、更便宜。“我们现在生产数据的速度是以往的5倍，而成本不变。”西雅图华盛顿大学的ENCODE研究员约翰·斯塔马图亚诺伯洛斯说。

在全面研究中，研究人员对至少147种细胞类型进行了1648项实验。他们将从基因组中转录的RNA进行分离、测序，识别出约120种转录因子的DNA结合位点。他们还绘制了基因组中被甲基团覆盖的区域图，被甲基团覆盖通常表明这里的基因是沉默的。他们还检验了组蛋白的化学修饰方式，这种修饰有助于将DNA包装成染色体，增强或抑制信号区（基因表达区）。

斯塔马图亚诺伯洛斯和同事用了一种叫做DNaseI的酶绘制了125个细胞型中的调节区。这种酶对与组蛋白结合的DNA影响很小，却会切断与其他调节蛋白连接的DNA，如转录因子。对被切掉的DNA测序表明，在不同细胞类型中，这里都是蛋白质的结合位点。他们共发现了约290万个这种位点。其中约1/3发现于一种细胞类型中，而所有细胞类型都有的位点仅3700个，这表明基因组在不同细胞之间调节的差异，是造成细胞与细胞之间差异的主要原因。而把不同的数据库放在一起对比，让研究人员能知道是哪种转录因子于何时、何地发生了结合。

现在，人们发现原来巨大的“荒漠区”居住着数十万有着基因调节功能的“住民”，而且每种细胞类型通过这些功能的不同排列组合实现其特殊的生化功能。这也解释了为何相对较少的编码蛋白基因能产生大量的生物复杂性，来支持人体生长及功能。领导部分数据分析工作的麻省理工大学计算遗传学家马诺里斯·克里斯说：“ENCODE计划远远超过了部分相加之和。”

目前这一阶段已近尾声。研究人员已经确认约80%的基因组都具备某种功能，包括7万多个“启动子”区，位于基因上游，负责与蛋白质结合控制基因表达；近40万个“增强子”区，负责调节远距离基因的表达。

ENCODE计划所发布的数据已经在帮助研究人员进一步了解遗传病。自2005年以来，已经发现上千个致病基因，其中一个字母的差异或变异就会导致疾病风险。该计划所绘制的基因图谱揭示了许多与疾病相关的区域，包括“增强子”或其他功能序列，而细胞类型也很重要。“要感谢ENCODE项目，我们现在才能对更复杂的疾病主动出击。”克里斯说。

许多人已经从人类基因库的巨大数据流中获益。ENCODE已经照亮了人类基因组的一些黑暗角落，为人们理解基因变异是怎样影响人类特征和疾病创造了机会。进一步探索该项目所揭示的调节成分，将其序列与其他哺乳动物做比较，有助于科学家重新理解人类的进化。

何处是终点？

在“人类基因组计划”中，人们只是对基因组进行测序，现在开始深入腹地探索其内部的秘密。但没人知道基因组中还藏着多少信息，这项研究何时才是尽头。

“这不可能很快停下来。”英国牛津大学计算生物学家克里斯·庞廷表示。他也支持该计划目标，但他怀疑该计划某些方面的研究能否带来投资回报，这些研究据估计已经超支1.85亿美元。而另一位小组领导人、马萨诸塞大学医学院的乔伯·德克说，实现ENCODE的潜在利益需要耐心。“有时要花很长时间才知道，你能从某个数据库中获取多少利益。”

问题是哪里才是终点？克里斯说，一些实验方法可能会到达饱和点：如果发现的速度低于某个界限，每个实验的回报可能会变得太低而不值得追求。科学家最终将积累足够的数据，能预测那些尚未探索的序列的功能。这一过程称为归因，但在很长时间里其目标都是注解基因。“我认为会有一个阶段性的转变，到那个时候归因法会比实际实验更有效，也更准确。”

然而，伴随着数千种细胞类型需要测试，并且需要验证的工具不断增长，该计划看起来在无休止地延长。这一点让许多人担心。ENCODE的先期实验已经花了大约5500万美元；扩展项目大约1.3亿美元；下一阶段还可能投资1.23亿美元。

一些研究人员认为，他们尚未看到可靠的投资回报。仅从一件事来说，要想了解ENCODE项目数据使用情况就很难。美国国家人类基因组研究所项目程序主管麦克·帕金说，他检索所有ENCODE数据在其中起着重要作用的论文，发现其中有30多万篇并非来自ENCODE资助的实验室，因为单词“encode”在遗传学和基因组学的论文中普遍存在。还有反对者认为，ENCODE并不像人类基因组计划那样有着清晰的终点，它可能会无限制地扩展下去。

研究工作仍任重道远

来自欧洲分子生物实验室的英国欧洲生物信息研究所的计算生物学家、负责协调ENCODE计划数据分析的伊万·伯尼说，研究工作还远未完成，某些基因组绘制工作已到半途，而其中各成分的功能是什么，只完成了10%。目前正在进行的第三阶段研究，最终将完成阅读人类基因的指导手册，并提供更多的细节。

伯尼想把他们过去5年来为ENCODE计划收集的全部基因组数据打印出来，但却发现一个难题：没有地方能存放它们——即使每平方厘米能容纳1000个碱基对，打印材料也将达到16米高，至少30千米长。

仅研究ENCODE项目现有的数据，就要花几年时间，但是还有大量工作要做。美国加州大学圣克鲁兹分校的网站上有一个生动的图画展示了ENCODE项目的进展：一个立体网格显示了24个实验类型中哪些已经开展，180个细胞类型中哪些已经被检验。现在的工作分布仍很稀疏。只有少数细胞系，包括实验室的两匹“快马”HeLa和GM12878（细胞系名）的进度还不错。更多的只不过做了一次实验而已。

科学家们将在第三阶段中填补许多空白，而伯尼把这叫做“扩建”。但是他们打算增加更多实验和更多细胞类型。如此做的一种方法是，扩大一种叫做“染色质免疫沉淀反应”（ChIP）技术的范围，这一技术能找出与特定蛋白结合的所有序列，包括转录因子和修饰组蛋白。经过一个辛苦的过程后，研究人员一个接一个地开发出了这些DNA结合蛋白的对应抗体，然后用这些抗体将蛋白质和任何相关DNA从细胞中分离出来，最后再为这些DNA测序。

但至少，这是一个有限的问题，因为这类蛋白大约只有2000个（ENCODE已经获得了其中约1/10的样本），更大的困难是算出来有多少细胞系需要分析。迄今为止，进行的多数实验都是针对适于在培养环境中生长的细胞系，具有一些非自然的特点。比如细胞系GM12878，就是从血液细胞中培养出来，并用一种病毒来驱动细胞复制，组蛋白或其他因子可能会不正常地结合到扩增基因组中。HeLa细胞系是从50多年前的一个宫颈癌切片中培养出来，并用基因重组技术改造。伯尼开玩笑说，它称得上是个新物种。

ENCODE科学家现在想观察直接取自人体的正常细胞。但许多这类细胞在培养环境中无法分裂，样本难以取得，实验只能在少量DNA和诸如脑细胞组织中进行。ENCODE协调人员也开始讨论，更深入地研究个体差异对基因组中的调节成分有哪些影响。“某些地方存在一些序列差异，这意味着转录因子在这里的结合方式有所不同。”耶鲁大学新港分校计算生物学家马克·格斯坦说，他协助设计了ENCODE的数据结构。最终，研究样本将来自几十到几百个人不等。

大型研究计划的经验

为了成功，科研联盟需要清晰的管理和行动守则，并要求参与人员为了共同利益而努力。伯尼说，由于该计划的复杂性，它不可能像那些只有一两个实验室参与的研究那样开展。通常，在小规模的合作中，科学家都能充分发挥自己的能力，争取资金、发表论文，这对科学研究、科学家的实验室以及他们本人的发展都起到促进作用。但这种模式在科研联盟中并不奏效。

伯尼认为，一个大型科研联盟要想成功，必须形成一个对每位参与者都透明的组织机构。这种机构应当足够灵活，能随时改变以容纳多方资源，并将每位参与者作为个体对待，而不是把联盟当成一个团体，允许预料之外的有创新性的参与者加入。在联盟中，人们必须集中精力、尽可能地做出最好的数据库，也许他们会用到这些数据，也许不会，重要的是公共资源，而非个人成功。这要求把编制数据的目标从发表论文转变为公共利益。反过来，联盟各方的成功也要得到认证，至少他们带来了多少发现，就能在多大程度上促进科学的发展。

大型生物科研联盟如ENCODE、国际人类基因组单体型图计划（HapMap）、千人基因组计划（1000 Genomes Project）都是大规模的系统研究。这些研究会列出一份基础资源的“清单”，而不是聚焦于某些兴趣领域，并采用标准化方法、反应试剂和分析计划。研究成本由其支持的科学范围来决定——大到基因组分析，小到小规模的、假设验证类研究。

“我从1999年开始参与各种水平参的研究。2004年，我成为ENCODE数据分析的协调人。我了解到，科研联盟要想成功非常困难，因为它将那些可能会互相竞争的人组织在一起。让竞争者公开地、共同朝向一个目标合作很难，这有赖于所有人的良好意愿。ENCODE也让我明白一点，有效的科研联盟要求所有参与者形成一个组织构架、一套行动守则和一个目标：生成高质量数据，让全世界的科学家都能获得有用的数据。”伯尼说。

成果：30篇论文聚焦人类基因组功能

过去5年来，ENCODE科研联盟一直在构建这部DNA功能成分的百科全书，希望它为整个科学界提供参考。最近，研究人员在《自然》《基因组研究》和《基因组生物学》3种杂志上发表了30篇公开论文，关联到大量过程分析和原始数据。这一形式或许还开创了一种新的出版模式：在不同杂志之间进行主题线索的交织。

1. 转录因子的足迹分析

对41种不同的细胞和组织类型进行基因组DNase I足迹分析，研究人员在DNA调节区内鉴定出4500万个转录因子结合事件，从而代表着这些转录因子与840万个不同的短DNA序列元件存在差异性的结合。

2. 人类基因组DNA元件集成百科全书

ENCODE项目系统性地描绘出人基因组上的转录区域、转录因子结合、染色质结构和组蛋白修饰。根据这些数据，研究人员将生化功能分配到80%的人基因组，特别是在已得到很好研究的蛋白编码序列之外的区域。

3. 人类细胞转录全景图

RNA是基因组编码的遗传信息的直接输出。细胞的大部分调节功能都集中在RNA的合成、加工和运输、修饰和翻译之中。研究人员证实，75%的人类基因组能够发生转录，并且观察到几乎所有当前已标注的RNA和上千个之前未标注的RNA的表达范围与水平、定位、加工命运、调节区和修饰。总之，这些观察结果表明人们需要重新定义基因的概念。

4. 人类基因组中可访问的染色质全景图

DNase I超敏感位点（DHSs）是调节性DNA序列的标记物。研究人员通过对125个不同的细胞和组织类型进行全基因组谱分析，鉴定出大约290万个人类DHSs，并且首次大范围地绘制出人类DHSs图谱。

5. 人类基因组调控网络结构

为了确定人类转录调节网络的作用原理，研究人员在450多项基因组实验中研究了119个转录相关因子的结合信息。他们发现转录因子的组合性结合是高度环境特异性的：转录因子的不同组合结合在特异性的基因组位置上。他们对所有的转录因子进行组装而产生一个层次结构，并且将它与其他基因组信息整合在一起而形成一个严密又庞大的调节性网络。

6. 基因启动子的远距离相互作用全景图

在ENCODE项目中，研究人员选择1%的基因组作为项目试点区域，并且利用染色体构象捕获碳拷贝（简称为5C）技术综合分析了这个区域中转录起始位点和远端序列元件之间的相互作用。

7. 果蝇和人类的转录因子结合位点变异分析

研究人员将ENCODE项目产生的转录因子结合图谱、之前发布的数据及其他人和果蝇等基因系中基因组变异数据来源结合在一起，来研究转录因子结合位点的变异性。

8. 转录因子TCF7L2通过GATA3结合到基因组上

TCF7L2转录因子与很多人类疾病相关联，如Ⅱ型糖尿病和癌症。研究人员利用高通量测序技术ChIP-seq在6个人类细胞系中对TCF7L2进行分析。他们鉴定出11.6万个非冗余性TCF7L2结合位点，但是只有1864个位点在这6个细胞系中是相同的。

9. 构建定量模型研究染色质特征和基因表达水平之间关系

通过构建出一个新的研究染色质特征和基因表达水平之间关系的定量模型，研究人员不仅证实之前在多个细胞系的研究中发现的一般性关系，而且还对它们之间的关系提出了一些新的建议。

10. GENCODE假基因资源

作为GENCODE标注人基因组的一部分，研究人员基于大规模的人工标注和计算机运算，首次针对蛋白编码的基因进行全基因组假基因分配。他们将假基因标注和广泛性的ENCODE功能性基因组学信息整合在一起，尤其是确定了每个假基因的表达水平、转录因子与RNA聚合酶Ⅱ结合以及与之相关联的染色质标记。

11. 对人类启动子的转录因子结合位点进行功能性分析

为了大规模地描述转录因子结合位点功能，研究人员预测了人类启动子中的455个结合位点，并对它们进行突变。在4个不同的永生化人细胞系中，他们利用瞬时转染和荧光素酶报告检测在这些位点上对主要的转录因子进行了功能测试。

12. 基于转录相关因子的结合位点对人类基因组区域进行分类

研究人员通过机器学习方法构建出统计学模型，来捕获3种匹配类型的区域的基因组特征：活性结合或不活性结合的区域；极端高程度共同结合区域（HOT）和极端低程度共同结合区域（LOT）；位于基因近端或远端的调节性组件。

13. 利用RegulomeDB标注个人基因组中的功能性变异

研究人员开发出一种新的方法和数据库，即调节物组数据库，指导人们理解人类基因组中调节性序列上发生的变异。

14. 制定ChIP-seq工作标准和指导准则

根据研究人员进行ChIP-seq实验的经历，ENCODE和modENCODE(模式生物ENCODE)为经常更新的ChIP-seq实验制定出一套工作标准和指导准则。

15. 利用RT-PCR-seq和RNA-seq统计所有人类基因组编码的基因元件

在ENCODE项目中，GENCODE旨在通过人工管理和计算方法准确地标注人类基因组中所有编码蛋白的基因、假基因和非编码性的转录座位。利用一种叫做RT-PCR-seq（先进行RT-PCR扩增，然后进行高通量多重测序）的方法来预测外显子连接。验证了73%的预测结果，从而证实了1168个新的基因，其中大多数是非编码性的。

16. 细胞内RNA深度测序证实大多数RNA进行共转录剪接

研究人员分析了K562细胞系中通过RNA-seq测序而获得的细胞内RNA组分。他们发现，在人类基因组中，RNA剪接主要是在转录期间完成的，并证实在细胞质polyA+ RNA中，剪接几乎完全完成。因此，大多数RNA在被转录的同时进行剪接，即共转录剪接。

17. 发现上百个小鼠和人剪接来源的miRNA

非典型的miRNA模板并不适合经常用来标注典型miRNA的策略。通过对737个小鼠和人类小RNA数据集进行大规模分析，研究人员采取严格且保守性的策略对237个小鼠剪接来源miRNA和240个人mirtrons进行标注。

18. GENCODE：ENCODE项目的人类基因组参照标注

GENCODE第七版公开发布了基因组标注数据集，包含20687个蛋白编码的RNA基因座位、9640个长链非编码RNA基因座位，并且拥有33977个在UCSC基因数据库和RefSeq数据库中不存在的编码性转录本。它还对公开获得的长链非编码RNA进行最全面的标注。

19. 发现人类基因组中疾病相关的功能性SNP

研究人员系统性地研究了多种类型的ENCODE数据与疾病相关基因SNP(即单核苷酸多态性)之间的关联性，并且发现在当前鉴定出的疾病关联当中，存在功能性SNP的显著性富集。

20. 在两种人类细胞系中，lncRNA很少表达

ENCODE项目发现被鉴定为lncRNA的9640多个人类基因组位点中，迄今为止只有大约100个得到深入的研究以便确定它们在细胞中的作用。通过共同分析ENCODE项目最近产生的两个数据集，发现大约92%的GENCODE第七版发布的lncRNA在细胞系K562和GM12878中并不表达。

21. 关于个人和群体的基因组调节性序列变异的基因组学

为了更好地界定人类基因组调节性序列变异的模式，研究人员选择了来自不同位置的53个人的全基因组序列，将他们的138个细胞和组织类型的DNase I超敏感位点标记的全基因组调节性DNA序列图谱结合起来。研究人员估计，相比于蛋白编码的DNA序列，每个人可能拥有很多更加具有功能重要性的调节性DNA序列变异体，尽管平均而言，它们可能产生更加小的影响。

22. 利用开放构象染色质区域来预测细胞类型特异性的基因表达

研究人员利用来自19项不同的人类细胞类型的DNase-seq数据来鉴定全基因组范围的近端和远端调节性序列元件。通过匹配表达数据，他们将基因分为三类：细胞特异性的上调表达的基因、细胞特异性的下调表达的基因和组成性表达的基因。总之，他们成功地利用开放构象染色质的信息来解决利用调节性序列直接预测哺乳动物细胞特异性表达时存在的问题。

23. 探究ENCODE项目人类RNA-seq数据中的RNA编辑

研究人员分析了来自ENCODE项目对14个人类细胞系开展研究所获得的长串RNA-seq数据（这些数据经过PolyA选择，没有形成双链，且经过深度测序），以便鉴定出潜在的RNA编辑事件。他们发现，RNA编辑和特异性的基因之间存在较强的关联。

24. 细胞类型特异性的转录因子结合的序列和染色质决定簇

为了研究DNA序列信号、组蛋白修饰和DNase对细胞类型特异性的结合位点的可访问性所发挥的作用，研究人员分析了ENCODE项目所开展的286项ChIP-seq实验。与之前的研究相一致的是，他们发现DNase可访问性能够解释很多转录因子的细胞类型特异性结合。

25. 119个人类转录因子结合的基因组区域附近的序列特征和染色质结构

通过对ENCODE项目在研究119个人类转录因子时所获得的大约457个ChIP-seq数据集进行整合分析，研究人员在大多数数据集中鉴定出高度富集的序列基序，揭示出新的基序和验证已知的基序。

26. 分析人类lncRNA的基因结构、进化和表达

研究人员分析了迄今为止最为完整的由GENCODE项目产生的人类lncRNA标注：人工标注了产生14990个RNA转录本的9277个基因。他们的分析结果表明，lncRNA是通过类似于蛋白编码基因的转录途径产生的；相对于蛋白编码的基因，lncRNA通常较低地表达。

27. 染色质信号存在广泛的异质性

在许多种细胞系中，研究人员将14个染色质信号（12个染色质标记、DNase和核小体定位）与119个DNA结合蛋白的结合位点相关联在一起。他们开发出一种被称作CAGT的方法，来解释染色质标记在信号强度、形状和隐性链定位上的异质性。

28. 对转录因子结合数据进行整合分析来理解转录调节

利用对ENCODE项目产生的大量数据进行统计学模型分析，来研究转录因子的转录调节。研究结果揭示，不同技术和RNA抽提实验程序所捕获的转录起始位点在表达水平的预测准确度上存在显著性的差异。

29. CTCF结合的广泛可变性与DNA甲基化相关联

CTCF是一个广泛表达的调节因子。研究人员通过研究19项不同人类细胞类型的ChIP-seq数据来分析CTCF的全基因组结合模式。他们观察到高度重复性的但同时可变性非常大的基因组结合全景图，表明CTCF结合受到高度细胞选择性的调节。

30. 细胞HepG2中高度整合的转录因子PPARGC1A结合网络

PPARGC1A是一个转录共激活因子。它结合并共同激活多种转录因子来调节大多数基因的表达。在这项研究中，研究人员在经过毛喉素处理的HepG2细胞中描述了一种核心的PPARGC1A转录调节网络。他们利用ChIP-seq首次描绘了PPARGC1A的全基因组结合位点，并且揭示出过多表达的对应于已知的和新的PPARGC1A网络成员的DNA序列基序。重要的是，他们发现不同的转录因子组合结合到一套不同的功能性基因上，从而有助于揭示代谢性过程和其他细胞过程的组合性调节代码。（记者常丽君综合外电）《

《科技日报》（2012-09-030 二版）

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。