热点综述 | 按照分析套路，梳理一下癌症研究中的scRNA-seq计算方法...

scRNA-seq已广泛应用于癌症相关研究，单细胞分辨率的转录组分析能够定量检测肿瘤内细胞表型多样性的分子活性。这样的高维数据需要计算分析，以提取有关驱动癌症发展、发病机制和临床结果的细胞类型和状态的相关生物学信息。

来自美国的科研人员在《Experimental & Molecular Medicine》发表综述文章，聚焦癌症研究中单细胞转录组数据的计算分析，总结了与癌症研究相关分析的计算方法，并讨论了未来计算方法发展所面临的挑战和机遇。

scRNA-seq工作流程和下游计算分析

对多个患者和疾病状态的统一分析

在癌症的背景下，单细胞转录组学数据的分析往往因复杂的研究设计而变得复杂，这些研究设计可能包括来自有病和无病个体的样本，来自同一个体在不同时间点采集的多个样本（例如治疗前和治疗后），或来自不同个体的多个样本，表现出不同的疾病状态。

统一的聚类分析

已经开发了许多计算方法，用于统一分析多个scRNA-seq数据集，其中许多方法都有一个类似的概念框架：都从降低归一化基因表达数据的维度到较小的特征集（如潜在空间）开始，将这些特征在不同的数据集之间进行排列，使用排列的特征来识别细胞的集群（可解释为细胞类型），最后使用排列的特征和识别的集群作为二维可视化算法的输入，例如，MultiCCA、MNN Correct、Scanorama、Conos、LIGER和Harmony等。

或者，其他用于统一单细胞转录组学分析的计算方法没有明确考虑批次信息，而是学习一个函数，将数据集映射到一个低维潜伏空间，然后应用这个函数将来自不同样本或批次的数据集映射到同一空间，例如scCoGAPS。

在确定了常见的细胞类型和状态之后，可以应用额外的成分比较或差异表达分析来描述不同治疗、疾病阶段或其他条件之间的变化。例如，广义线性模型已被用于通过比较病例与对照组来确定细胞类型比例中的差异丰度，并确定跨培养条件的差异表达基因，同时使用固定效应的变量如性别和年龄以及随机效应的病人和批次来计算重要的协变量。

或者，基于深层神经网络的统一单细胞转录组学分析的新方法已经被开发出来，通过拟合单个生成模型，可以同时对数百万个细胞进行批量校正、归一化、插补、降维和聚类，例如，scVI、SAUCIE。

一旦跨数据集识别出主要的单元类型，就可以应用递归聚类来识别更精细的单元状态。递归聚类已应用于肺癌间质细胞和肿瘤浸润的髓样细胞。

鉴别肿瘤细胞和非肿瘤细胞

在癌症方面，一个独特的分析挑战是区分肿瘤细胞（如肿瘤细胞）和非肿瘤细胞（如免疫细胞、内皮细胞和成纤维细胞）。在一些研究中，通过富集肿瘤细胞和/或通过分选去除非肿瘤细胞来规避这一挑战。然而，由于技术限制（例如缺乏合适的标记），有时无法进行分类。此外，当目的是描述肿瘤细胞与周围肿瘤微环境中的非肿瘤细胞结合时，分类可能是不可取的。因此，许多计算方法和方法已经被发展来区分肿瘤细胞和非肿瘤细胞。

鉴别肿瘤细胞和非肿瘤细胞

在某些癌症中，检测不同的标记基因或标记基因的组合可以区分肿瘤细胞和非肿瘤细胞。例如由于多发性骨髓瘤细胞以CD38⁺/CD138⁺抗原表达为标志。

基于表达的CNV推断的计算方法也已被应用于区分许多癌症中的肿瘤细胞和非肿瘤细胞，包括各种胶质瘤、黑色素瘤、头颈癌、乳腺癌和多发性骨髓瘤。对于不存在大规模的CNV癌症，其他较小规模的DNA水平改变，如体细胞点突变，也可以从scRNA-seq数据中识别出来，并用于区分肿瘤细胞。然而，从scRNA-seq数据中检测体细胞点突变仅限于在具有足够读覆盖率的位点上表达的外显子内的突变。

除了区分肿瘤细胞和非肿瘤细胞外，CNV推断和体细胞突变调用还可以用来区分基因上不同的肿瘤亚克隆。值得注意的是，通过从scRNA-seq数据推断出这种变化，可以直接比较遗传亚克隆的转录谱，以表征所观察到的遗传变化的转录后果。

然而，一些癌症并不是由大规模CNVs或体细胞点突变来明确定义的。例如，慢性粒细胞白血病（CML）细胞通常由BCR-ABL融合基因的存在来定义。虽然基因融合可以在用全转录scRNA-seq流程（例如SmartSeq2）生成的数据中检测到，但检测灵敏度的限制可能导致假阴性。为了可靠地检测基因融合，可以调整scRNA-seq文库制备方案，以包括用于特定基因融合的靶向扩增引物。

推测与肿瘤微环境的交流

肿瘤细胞存在于肿瘤微环境中的非肿瘤细胞类型和状态的异质组成中，可能导致肿瘤逃逸和进展、血管生成和治疗抵抗。scRNA-seq为肿瘤微环境中多种细胞类型（从间质成纤维细胞到多种免疫亚型）的特征化提供了一个高通量和无偏的方法。除了描述肿瘤微环境的异质性外，还发展了计算方法来推断不同细胞类型之间假定的通讯。

细胞通讯的推断

为了推断细胞类型之间的假定通信，细胞-细胞通信方法通常依赖于使用已知受体和相应配体的详细列表比较一种细胞类型中的受体基因和另一种细胞类型中的相应配体基因的表达水平。例如，CellPhoneDB、基于图形的零分布生成方法等。在分析大量scRNA-seq数据集时，还可以通过计算一种细胞类型中受体基因表达与另一种细胞类型中相应配体基因表达在所有scRNA-seq数据集中的相关性来确定假定的通讯。最近，通过使用一种称为NicheNet的计算方法扩展了这些想法，该方法将基因表达数据与细胞内信号和基因调控网络的先验知识相结合，识别一种细胞类型中与另一种细胞类型中相应受体下游基因表达相关的配体。

由于分析的患者和样本数量有限，仅关注scRNA-seq数据集的方法在统计能力方面可能受到限制。为了提升利用大型RNA-seq样本集的可用性，在从scRNA-seq数据中识别出细胞类型特异性标记后，已经开发了计算去卷积方法来推断不同免疫和基质细胞批量RNA-seq样本的比例。

描述肿瘤和微环境的进化

虽然单细胞转录组分析技术（如scRNA-seq）以单细胞分辨率提供转录组范围的分子测量，但这些测量最终代表了时间上的单个快照。由于癌症进化的连续性和更广泛的细胞发育，这种缺乏时间信息的现象特别限制了对癌症和其他动态过程的研究。为了推断细胞在假定轨迹中的伪时间顺序，已经开发许多计算轨迹推断方法，在癌症方面轨迹推断分析已被应用于健康和肾癌的scRNA-seq数据。

结合RNA速度分析的轨迹推断

虽然轨迹推断方法能够沿某些轴定位细胞，但目前的方法无法估计通过推断轨迹的进展速度或方向的潜在时间动力学。关于基因表达模式的先验知识可能有助于建立代表正常发育过程的轨迹方向性，我们可以假设轨迹从表达干细胞相关通路的细胞开始，到表达成熟相关通路的细胞结束。然而，这样的假设在癌症环境中可能不再有效。RNA速度分析可以通过提供推断轨迹的方向性来解决这些限制。例如，RNA速度分析在肝癌树突状细胞(DC)上的应用表明，两种不同的传统DC亚群有汇聚并转化为LAMP3+肿瘤相关DC的潜力。虽然轨迹推断和RNA速度分析的应用为识别癌症发病机制的改变提供了可能，但在癌症环境中应用这种分析时应考虑一些预防措施，特别是在解释肿瘤细胞的结果时。

随着分析的细胞和样本的数量继续倍增，特别是国际合作，如Human Cell Atlas、Human Developmental Cell Atlas、Pediatric Cell Atlas、HuBMAP、Human Tumor Atlas Network,、LifeTime EU Flagship等，有必要通过实施改进和算法优化，提高计算方法的可扩展性。虽然这些计算方法在癌症环境中的应用可能会带来一些独特的挑战，但最终还需要在数据驱动的假设生成和计算预测的正交验证之间进行反复优化。这些挑战为单细胞转录组学分析提供了巨大的机会，有助于我们了解癌症的异质性、发病机制、进化和微环境的相互作用，为新的治疗创新奠定了基础。

2021为了让您能快速获取我们发布的优质文章推送，建议您经常：

文末点击“在看”、点“赞”、分享
将『国家基因库大数据平台』公众号“星标”
与小编“留言互动”

更多优质内容请点击下方名片，关注“国家基因库大数据平台”和“深圳国家基因库”公众号。

参考文献

Fan J, Slowikowski K, Zhang F. Single-cell transcriptomics in cancer: computational challenges and opportunities[J]. Experimental & Molecular Medicine, 2020, 52(9): 1452-1465.

图片均来源于参考文献，如有侵权请联系删除。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。