赛福基因公开课第十四期《RNA-Seq在临床医学中的应用—

Part-1

嘉宾介绍

张莺博士，毕业于中国科学技术大学，后在宾州州立大学获得遗传学博士学位。现就职于明尼苏达大学的超级计算中心，进行生物信息学研究。目前为止，研究的课题大致分为临床相关的疾病研究和基础的生物化学研究。

Part-2

公开课环节

大家好，我叫张莺，今天我和大家分享的主题是关于RNA-Seq在临床医学中的应用，包含CRC的案例分析。因为要交流的内容涉及还未发表的数据，所以我会更侧重于研究的方式方法，而把结论部分粗略带过。

首先我要强调一下本次报告的核心信息有三点：第一，临床分析和基础科研是相辅相成的。良性的医学发展应该建立在临床应用和基础科研的正向反馈回路上。其次，临床研究最重要的步骤是对于病人样本的采集，需要符合科学的统计原理。最后，临床分析的技术手段是多样的，要具体案例具体分析。

下面我要介绍的是几个本次报告会用到的术语。RNA-Seq：对样本的转录组进行高通量测序；与之对应的是DNA-Seq，对样本的基因组进行测序。Transcriptome profiling：对样本的转录组进行量化分析。Reads：测序所得的序列片段。FFPE：是福尔马林固定和石蜡包埋的组织切片。

这张幻灯片列出了本次报告的大纲。大致分3个部分：背景介绍，研究中的重点难点，以及CRC-案例的分析。我的讲述重点在第二块。如果大家在听讲中有任何疑问，欢迎随时提问。

先给大家介绍一点背景情况。大约11年前，NIH设立了一个项目来支持转化医学（translational research）的科研（这就是CTSA）。这里转化医学是将基础科研和临床治疗联系在一起的研究思路。然后在大约6年前，2011年的圣诞节附近，NIH启动了一个国家级的研究中心去加强转化医学方面的科研。这就是CTSI的简短历史。CTSI在全美大约有50-60个合作伙伴，我所在的明尼苏达大学也是成员之一，所以，学校从11年起，就进行了很多转化医学的研究，我们的项目就是其中之一。我们选择CRC-大肠癌，就是因为它是美国位列第三的高发癌症，也是位列第三的致病癌症。所以学术界一直在持续不断的筛选CRC的癌基因，目的就是为了将来的临床基因治疗能有坚实的理论基础。

在这个项目里，RNA-Seq是我们的主要研究手段。如图所示，RNA-Seq的主要步骤包含采集病人样本，提取样本里的mRNA分子，按照标准流程来进行测序，对于测序结果进行定量分析以及差异性分析，从而筛选出癌基因（driver oncogene）。这是RNA-Seq技术目前最主要的应用。除此以外，RNA-Seq还有很多别的应用，比如RIP（RNA分子的免疫沉淀），transcriptome assembly（转录组重建），novel isoform detection（发现新的转录同形物），RNAvariant calling（RNA分子变异位点发掘）等。

但是刚才幻灯片显示的图片里，其实缺少了临床实验的一个关键步骤，那就是实验设计。一个成功的科研实验必须在设计的时候就考虑到方方面面，比如我随后要提到的几个方面。

第一个就是实验的性质。这是定量分析呢还是定性分析？一般来说，定性分析需要的样本量要比定量的少一些，因为定性需要的精度不高。

其次就是样本采集。这是控制“garbage in garbage out”的最关键一步。换句话说，有效的实验结论只可能来源于可靠的样本数据。在采样过程中，尤其是临床医学研究中，采样非常关键。举个例子，我曾经做过一个项目，采集了一共100个左右正常人的样本，来确定正常肝脏功能的各项特性。结果，我们发现各项特性都是和性别年龄密切相关的。换句话说，在年轻女性中得出的结论，是一定不适用于年长男性的。所以，采集样本的时候要充分考虑到样本中可能存在的各种“非病征”性差异，也就是样本要匹配，要在非病征的表象上匹配。

接下来的问题就是要采集多少样本？这在统计学上，是一个statistic power的问题。一般来说，样本越多，结论就越精确。但是对于背景类似的组织细胞，样本数目可以适当减少。实际应用中的原则就是，对于实验室的传代细胞，3个样本就足够了，但是对于特定的人类种群（比如美国的高加索种群，Caucasian），就至少需要20个个体样本来保证统计模型的有效性。

RNA-Seq的第二个实验重点在于测序手段的选择，是用illumina进行短片段测序还是PacBio进行长片段测序？是双向测序（pairedend）还是单向测序（singleend）？测序深度是1千万个序列片段（reads）还是6千万个reads？这些都是需要具体情况具体分析的。从经验上来说，对于人的转录组测序，常用方法是illumina短片段进行双向测序（pairedend），测序深度至少1千5百万到2千万个reads （15-20 million）。最近还出现了一种新的RNA-Seq测序方式，即采用UMI来标记每个独立的mRNA分子。UMI就是uniquemolecule identifier。这种方法可以有效控制传统测序中因为PCR扩增而导致的偏差（bias），所以UMI的量化准度比较高。不过，UMI测序目前最广泛的应用还是在单细胞（single cell）测序上，因为这种方法可以快速的标识大量的单独细胞中的独立mRNA分子，这对于着眼于分析个体差异性的精准医学非常有用。

RNA-Seq还有一个重点就是要选择合适的软件或者应用程序来分析数据。我这里举两个例子。一个例子是序列比对（alignment）。转录组比对和基因组比对的最大差异在哪？在于转录组其实是基因组中的不连续片段。就像幻灯片图片所示。在基因组中，一个转录物的构成即包括外显子exon，又包括内含子intron。exon和intron是交互排列的。但是转录成mRNA分子后，就只剩exon的部分了。所以选择的程序就应该把这点考虑进去。幻灯片中的图表是两种不同比对程序的分析结果。上面是BWA，我们可以看到在exon和intron分界的地方，比对序列呈现一种斜坡形态。下面是GSNAP，这个程序在exon和intron分界处，稳定了比对序列的数量。所以GSNAP比BWA更好。其实目前有很多论文在比较各种计算模型做序列对比的优缺，这里我就不一一举例了，只说一下大概结论。普遍看法是各个软件对于human，mouse的分析都精度较高。但是对于非模型生物（non-modelorganisms），就需要调试各项参数来达到最优结果了。

第二个例子就是定量分析。怎么样去定量是一个还存在争议的问题。早先的一些程序，比如EdgeR，都是基于“直接计数”的，毕竟直接数数是最快，最直接的方式。而且，从统计学上来说，做差异性分析，并不需要100%精确的定量数据，因为统计学看重的是变化趋势，而不是变化量。但是直接计数有很多不便的地方，比如说，直接计数没办法做转录同形物(isoform)的分析，而且它不能用到ambiguous的短序列，如幻灯片中的图表所示。所以在2012年，Nature Protocols上发表了经典论文-运用Tuxedo Suite来做RNA-Seq分析。Tuxedo Suite是马里兰大学的一个研究组开发的一系列软件，标准化了RNA-Seq的定量差异性分析。这个软件的核心部分是splice-aware的序列比对程序tophat，和FPKM这个基因表达的定量公式。FPKM考虑了样本测序深度和转录物的长度，弥补了直接计算的缺陷。但是，随着越来越多的论文发表，大家认识到了fpkm的不足，因为这个公式没有考虑转录同形物的相对分布量。所以，Tuxedo Suite的资深作者开发了kallisto模型，提出了TPM的定量公式。不过kallisto并不是真正的去比对测序片段和基因组序列，而是直接通过“pseudo-alignment”来定量。即便如此，很多研究表明，TPM的精度比FPKM高，而且kallisto的运行速度更快。

我从2017年的一篇论文中截取了本页幻灯片的图表，就是为了让大家对刚才提到的几种定量分析有一个比较。总结一下，就是直接计数和实验方式直接相关，所以稳定性差，而FPKM的波动最大，TPM表现最好。

我想到目前为止，大家应该对RNA-Seq有了一个大致的印象。接下来，就是CRC的案例分析了。关于这个项目，我们是和所在地的诊所合作，收集了20个病人和5个正常人的样本。这并不是最好的实验方案，因为病人和对照组的数据不匹配，而且病人样本远超对照组样本。除此以外，我们还制作了两个病人的FFPE样本，试图通过FFPE和fresh frozen样本的比较分析，来确认一个有效的FFPE分析方式。因为有FFPE样本，我们对每个样本都进行了双向的深度测序，最终每个样本得到6-8千万个序列片段。

我们的分析流程列举在这一页了。这应该是比较标准化的步骤了，一步步从质量控制开始，到序列比对，到基因表达量化，最后就是差异性分析，和经验验证。接下来，我会一步步的分解说明各个分析步骤的结果要如何看待。

最后，我再重申一下本次报告的几个重点。临床研究和基础科研是相辅相成的，但是目前的主流看法是临床实践要落后基础科研10年，所以这里我们大有可为。其次，因为临床研究针对的是病人个性，在设计实验的时候要考虑到生物个体间的差异性。当然了，目前最流行的精准医学就是在研究生物个体间的差异性。第三，分析临床实验结果要谨慎，不仅要尽量采取标准程序，还要具体问题具体分析。最后，对于FFPE样本的分析还是难点，这是由于样本特性所决定的。谢谢大家能参与这次报告，欢迎提问。

Part-3

问答互动环节

听众A：

作为临床研究者，当然是希望能够科学合理的采集尽可能多的病人样本。但是在实际操作中，总会有不如意的样本。那么碰到坏的样本要怎么处理呢？

张老师：

事实上，在任何情况之下，我们都会碰到有一些不太好的，或者是不能用的样本。碰到这种情况，第一个要知道这是很正常的，第二个如果碰到坏的样本，要知道做质量控制。如果我们能够越早发现有坏的样本，那么事实上就可以尽量减少这个坏的样本对于整个分析流程的影响。其次，因为上面介绍的主要是一个比较标准化的tuxedo suite分析方式，现在还有一些其它的统计模型，它们能够处理一些有大偏差的数据，所以即使有坏的样本，也不要特别担心，要么我们就剔除样本，要么就采取更强的分析手段。最后还要补充的是，碰到坏的样本的时候，我们去看结果，因为结果出来会有很多候选基因，就像实验里面一样。那么如果碰到有样本不尽如人意的话，我们一般会挑选最强的信号，所谓最强的信号就是表达量差异最大，差异最稳定的这个基因，来作为我们下一步实验的候选基因。

听众B：

对于数据的清洗，假如有接头污染是对该reads对直接去掉还是只去除接头部分加A碱基？

张老师：

是这样的，对于数据的清洗，如果有接头污染的部分，如果数据量比较大，可以直接去掉reads，但是一般来说，我们只会去除掉头部分不好的碱基。

观众C：

讲座中提到临床医学相对基础科研来说有个滞后性，那么我们有没有可能去填补这个差距呢？

张老师：

其实关于临床医学相对基础科研的滞后性，就是现在大家都在做Translational Research的一个原因，因为我们想加快临床医学对于基础科研的应用，但是滞后性在一定程度上来说不是做科研的人能够控制的，因为有很多条条框框的控制条款。我举个例子，在美国想把基础科研应用到临床医学上，要进行一些认证，其中最重要的是Clinical Laboratory Improvement Amendments，认证是一个很长期的过程，我们自己当时还做了另外一个研究，用比较流行的云计算去进行基因分析，当时是和一个医院合作的，这个certification至少做了一到两年才拿到。当然政府对于科研或者说医疗方面进行调控，是可以理解的，但是有很多时候还是让人觉得很失意，比如说美国现在对于基因测序，是否要对每个人都进行基因测序，大家还处于讨论、设定行业规则的阶段。所以我觉得这个是一个比较长期的过程，不过如果大家能够早一点开始考虑这个问题，是有可能缩短从基础科研到临床医学转化的时间。

观众D：

感谢张老师的演讲，请问张老师如果二代测序分析得到某基因表达量与qpcr验证结果不一致应该怎么办？

张老师：

目前大家一般认为表达量精度qpcr是高于RNA-Seq的，如果结果不一样，我建议采取qpcr的验证结果。

观众E：

我想问一下，做转录组测序的时候，老师在选取实验入组样本方面有什么好的建议？

张老师：

是这样的，因为我不知道你的实验组织是什么，是选择病人还是选择其它的一些模型生物。如果选择病人的话。最好能够找到匹配的，比如说病人里面都是年轻人的话，那么对照组也尽量都选择年轻人；如果有百分之五十是女性的话，对照组最好也百分之五十是女性；如果做其它的组织或者个体，比如说老鼠，这个实验就相对来说简单一点，只要选同样遗传学背景的老鼠，比如C57BL/6J就可以了。

观众F：

张老师您好，在分析差异表达时，重复数是获得统计显著性，去除噪音很重要的因素，但是因样本来源、成本、实验设计等原因，有时并没有设置重复（replicates），这个时候采用什么分析方法更有效呢？

张老师：

如果你是在做临床医学分析没有重复样本的话，我建议就不要做这个分析了，因为没有多个样本的话，数据基本上是不可信的。当然如果做另外的研究，比如就像我前面提到做精准医学的时候，只需要有一个病人的样本，就可以做精准医学。但是要做Translational Research 还是有问题的。如果做其它组织或者个体（比如老鼠），如果没有设置重复，只是想做一个trial,pilot project，目前来说我知道的分析方法就是Tuxedo Suite，fpkm这个模型里面可以处理只有一个样本的状况。，不过我是非常不建议只有一个样本，只有一个样本没有变化量的话，结果很可能是不准确的。

观众G：

张老师您好，我想咨询一下RNA-Seq结果的后续生物学意义分析中，除了在讲课中提到的通过heatmap看样本间表达量差异外，还有哪些分析可以做？尤其目前比较流行的？当然GO, Pathway等通常的分析都会做吧？

观众H：

我觉得和张博士的研究目的有关。在本次的研究中，张博士的最终研究目的是筛选癌基因。那么做了Go，通路的富集分析，我觉得作用不大，而且思路有可能被带偏。因为上述的分析，是把思路往机制、网络、系统生物学的方向去引导。而张博士本次的研究目的是找到点。

观众G：

所以我想看后续张博士还会用什么方法进行生物学意义的分析。GO,Pathway分析对发现一些基因也是有帮助的。

观众H：

嗯，有可能有帮助，但目前我觉得还有它的局限。因为Go,Pathway 提供的是结构化的图表信息，并不是用来解释生物学效应是在什么条件下为什么成立的，它的作用是给出了如果成立，分子相互作用的路线框架图。比如：JAK，STAT是很大的蛋白家族，JAK家族中的蛋白，和STAT家族中的蛋白，存在着怎样的对应关系？作为信号分子的细胞因子和JAK之间又存在怎样的对应关系？除此以外，什么样的胞外信号可以激活STAT的哪一类蛋白？这样的效应，是在什么器官或者组织中完成的？在什么样的疾病中，通路会发生异常？我个人觉得，就当前的GO,Pathway(包括商软）的注释发展速度，跟不上当前人们日益增长的分析需求。

观众G：

是呀。所以很想看看最近大家都在做什么？好久没follow up了。

观众H：

有的时候，我也在想一个问题：一旦涉及到后续生物学意义的分析，怎么样保证不让它变成大马路上的东西不让它看起来像发文利器而是实实在在的做东西

观众I：

RBA-Seq目前三大方向都是很适合的：差异表达，融合基因发现，repertoire。

观众H:

我们有的时候会引入双聚类,或者是通过计算自己的转录组，看谁家实验结果和我家趋势一样，或者完全相反,通过分析结果，来寻找结果成立的各种条件.

张老师：

你好观众G，就像观众H说的，对于CRC的分析，我就只是做了transcriptome profiling和fusion gene detection。我能做后者还是因为我们的测序深度足够。这里我就提了differential expression是因为我觉得这是一个更常见分析，所以和大家讨论的话，共鸣会更多。至于你说的其他分析，在我做的别的项目里面，我还用RNA-seq做过一些system biology的分析。相比较观众H说的go和pathway，system biology主要是搭建coexpression network。如果数据足够的话，是可以给每个网络点，也就是基因来建立模型的。然后，可以in silico的引入一些小扰动，看下游的基因表达变化。这也是现在比较热门的一种分析吧。

观众G：

一些in silico 小扰动，喜欢这个。这个应该也是建立在明确pathway的基础上，是吧？因为可以知道disturb后关注哪些基因。

张老师：

就像观众H说的，“或者是通过计算自己的转录组，看谁家实验结果和我家趋势一样，或者完全相反”，我如果有时间，也想做这个。因为我现在做single cell sequencing的过程中，发现可用的cell marker genes太少。唯一一组141个免疫基因的数据，还是别人2013年的一篇论文，综合了几千个differential expression的实验，提炼出141个免疫基因和141个stroma cell特定基因。

观众H：

我们用Genevestigator 处理趋势相似相反感觉在国外打开更流畅。

张老师：

在single cell里面看这些基因list的表达实在是太有意义了。因为目前single cell的分析程式都差不多停留在告诉你有多少个cell subtypes了。根本做不到明确确定这个cell subtype就是stem或者cancer cell的目的。

观众H：

对，需要在single cell里面，更有意义。

张老师：

我做的是用system biology的一些原理，自己建一个coexpression 网络。建模型的过程没有用到已知的pathway。但是最后在网络中肯定是可以发现一些已知pathway的。我看到过genevesigator这个程序，但是没用过。

观众H：
不同库，通路基因不一样。如果一定要涉及通路，我会用pathcards 处理，找到通路综合，尽量不漏。这个功能就在共表达模块里面，有时间可以使用一下，数据驱动应该是能发现更多有价值的信息。

Part-4

第十五期公开课预告

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。