耕耘7年重登《Nature》：谱写下一代癌细胞百科全书

文 / 常亮

审核 / 袁博，方睿

排版 / 方睿

癌细胞系，我们知道的远远不够

癌细胞系（cancer cell line），是每个癌症科研工作者再熟悉不过的名词。想要在实验室中洞悉导致癌症的元凶，或是在药厂探寻攻克癌症的武器，必不可少的第一步便是获取癌细胞作为研究癌症的模型。所幸，一些病人的癌细胞从体内分离出来后依然生命力旺盛。一个塑料培养皿，倒上培养基和血清，辅以合适的温度和二氧化碳浓度，就成了这些癌细胞的新家。这些可以在实验室里生长、分裂、传代的癌细胞被人们称作癌细胞系，是癌症机理研究和新药研发必不可少的工具。

培养癌细胞系的塑料培养皿

1951年，第一个癌细胞系 HeLa 从美国约翰霍普金斯大学医院一个宫颈癌病人中分离出来，在全世界成千上万的实验室中生长。

今天，已有近4000种癌细胞系从几千个癌症病人中提取，并在实验室中被成功培养。这几千个癌症病人的癌细胞在实验室中繁衍生息，作为简单易用的工具让研究人员投身癌症研究一线。深入分析这些细胞系，可以理解癌症的发生和发展的机制；将实验室中的药物加入细胞系当中，可以发现哪些新药有杀灭癌症的潜力。

科研史上的第一个癌细胞系 HeLa

在癌细胞系的巨大贡献之余，一些重要的问题渐渐浮现：这些细胞系的基因和分子特征是什么？它们的基因组有哪些突变，哪些拷贝数变化？它们各个基因的RNA表达量是什么？从特定癌细胞中得到的信息，对临床中哪个病人最相关？这些已经在实验室中被使用了几十年的细胞系，依然没有属于自己的“体检报告”。

要知道，过去几十年间，数十万篇癌症研究相关的论文中大都少不了癌细胞系的身影，每个癌症新药的研发过程都会使用癌细胞系来进行药效或药理的实验。如果不知道这些癌细胞系的分子细节就贸然使用，所得到的研究成果对理解和攻克癌症有多大的帮助也会被打上问号。有些药物能杀灭一些癌细胞系，却不能杀灭其他，到底对治疗病人的癌症有多大的帮助也不得而知。

强强联合，构建癌细胞系百科全书

博德研究所（Broad Institute of MIT and Harvard）和诺华公司（Novartis Institutes for Biomedical Research）的科学家们意识到了这个问题。这次学术界和工业界的强强联合，带来了癌症研究历史上规模空前的项目：癌细胞系百科全书（Cancer Cell Line Encyclopedia, CCLE）。他们的目标是通过高通量基因组学方法，解码常用的一千余种癌细胞系的基因组、转录组、表观基因组和功能信息，并将这些信息作为资源免费向公众开放，让 CCLE 成为全世界癌症科研人员都能使用的百科全书。

2012年，CCLE 第一阶段的结晶，一篇《Nature》横空出世[1] 。这篇文章中，博德和诺华的研究者们使用了DNA微矩阵（microarray）和定点测序（panel sequencing）的方法，分析了947种癌细胞系超过1600个基因的突变、拷贝数变化和基因表达情况。同时，他们在479种癌细胞系中试验了24种抗癌药的效果，并尝试将不同细胞系对抗癌药的敏感程度和他们的基因组特征对应。百科全书建设初见成效。

CCLE 第一阶段的领头人是 Broad Institute / Dana Farber Cancer Institute 的 Levi Garraway 教授，和诺华的全球肿瘤掌门人（Global Head of Oncology）William Sellers。在CCLE 的推行过程中，他们的身份也发生了有趣的变化：Levi Garraway 从学术界跳槽到了工业界，2017年开始成为了礼来药业（Eli Lilly）的高级副总裁，主管全球肿瘤业务。William Sellers 则从工业界重回学术界，2016年成为了博德研究所的 Core Member 和哈佛医学院教授。值得一提的是，William Sellers 在前往诺华之前在哈佛医学院任教，Levi Garraway 是他实验室的博士后。师徒二人因为 CCLE 再度合作，期间又双双完成了学术界和工业界的“对跳”，也算是机缘巧合。

CCLE 两位领军人物的身份转变

从诺华到博德研究所，William Sellers 一直坚守在CCLE。耕耘7年，博德和诺华的研究者们完成了这项规模宏大的项目，在本周的5月8号再次发表在《Nature》上[2]。

在这一新版本的 CCLE 里，1079个癌细胞系的基因组（Microarray & WES）、转录组（RNAseq）、表观遗传组（DNA methylation & Histone Modification）信息被详细记录，899个癌细胞系的蛋白组和代谢组信息也被解读。除此之外，细胞系相关的临床信息、药物敏感度、gene dependency（by CRISPR screening）都被整合在 CCLE 当中。7年磨一剑，CCLE 已经成为了查找癌细胞系信息当之无愧的“百科全书”。

CCLE 包含的部分信息

CCLE 的全部数据都可以在博德研究所的公开数据库中获得开源下载链接。如果想免去编(de)程(bug)的烦恼，depmap则提供了癌细胞系信息的一站式平台。只要输入特定的细胞系名称，全部信息一览无余。

#https://www.broadinstitute.org/ccle

#https://depmap.org/portal/

以笔者最近在使用的 A375 melanoma 细胞系为例，depmap 提供了关于这个细胞系的来源、形态、preferential dependent gene、mutation、fusion 等相关信息，包含了我需要了解这个细胞系的一切背景资料，如果能帮我把实验做完就更完美了。

使用 CCLE 查询细胞系信息

展望未来：癌症研究数据开源化

“我们希望可以通过公开这些数据，让癌症研究社区共同谱写癌症研究的全局，让学术界和工业界的大家都可以更好地为开发癌症新药作出努力”。CCLE 项目的负责人 William Sellers 评论道。笔者作为 William Sellers 在博德研究所实验室的一员，也深切感受到了他对癌症研究数据开源的追求。

过去几年，数据公开在癌症领域成为了新潮流。美国国家癌症研究所（NCI）领导的癌症基因组图谱计划（TCGA）在去年完结，一万多个病人癌症样本的各项测序结果全部公开，方便全世界癌症科研人员和临床医生了解癌症的基因组细节。由美国癌症研究协会（AACR）牵头，美国境内几十家主要医院参与的GENIE 计划，至今已测序了3万余名癌症病人的基因组，这些数据也全部开源。

基因组之外，治疗癌症的小分子新药也成了“癌症研究开源化”潮流的一部分。2011年，还在 Dana Farber Cancer Institute 的 Jay Bradner 博士团队研发出了抑制 BRD4 蛋白的小分子新药 JQ1，对多种癌症有很好的效果。费时费力研发出一个新药，很多实验室都会尽快发表尽可能多的论文，让自己建立领先于同行的优势。但出乎意料的是，Jay Bradner 在第一时间发表了关于 JQ1 结构的论文之后[3] ，主动把合成好的 JQ1 免费发送给全世界想要研究 BRD4 的实验团队，超过40家美国实验室和30家欧洲实验室都收到了他们寄过去的新药。

无独有偶，诺华在2016年开发出了抑制 SHP2 蛋白的小分子新药 SHP099，打破了磷酸酶没有有效抑制剂的“魔咒”。一般药厂有了这样开创性的新药都会选择“闷声发大财”，没有发表成果的意愿。这次诺华却打破了先例，把 SHP099 的结构、筛选过程和研发的实验设计都发表在了《Nature》杂志上[4] 。在此之后，SHP2 在癌症中的研究如同雨后春笋，很多有趣的机制和治疗策略都在随后的几年被发现。值得一提的是，这篇论文的通讯作者也是 William Sellers。

Jay Bradner 关于癌症研究开源化的 TED Talk

这是癌症研究最好的时代。有 Broad Institute， NCI，AACR 这些大型机构孜孜不倦的努力，癌症科研工作者可以接触到的大数据集日新月异。大家不再需要费心费力追求攻克数据壁垒，而是可以花更多时间探寻癌症未知的机制。不管身处学界还是业界，这些海量的癌症相关数据都可以帮助我们向攻克癌症的目标更进一步。

这也是癌症研究充满挑战的时代。对癌症研究者而言，像10年前一样“一招鲜吃遍天”，依靠独有的数据集发论文如流水的时代一去不复返。同时，想要更好地利用这些日新月异的数据集，只靠闷头做实验是远远不够的，数据科学和编程的训练也愈发重要。理解大数据背后的含义、从海量数据中找到有生物学意义的假设，是新时代癌症科研工作者不可缺少的技能。

References:

1. https://www.nature.com/articles/nature11003

2. https://www.nature.com/articles/s41586-019-1186-3

3. https://www.nature.com/articles/nature09504

4. https://www.nature.com/articles/nature18621

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。