已经开发了许多计算方法,用于统一分析多个scRNA-seq数据集,其中许多方法都有一个类似的概念框架:都从降低归一化基因表达数据的维度到较小的特征集(如潜在空间)开始,将这些特征在不同的数据集之间进行排列,使用排列的特征来识别细胞的集群(可解释为细胞类型),最后使用排列的特征和识别的集群作为二维可视化算法的输入,例如,MultiCCA、MNN Correct、Scanorama、Conos、LIGER和Harmony等。
或者,其他用于统一单细胞转录组学分析的计算方法没有明确考虑批次信息,而是学习一个函数,将数据集映射到一个低维潜伏空间,然后应用这个函数将来自不同样本或批次的数据集映射到同一空间,例如scCoGAPS。
在确定了常见的细胞类型和状态之后,可以应用额外的成分比较或差异表达分析来描述不同治疗、疾病阶段或其他条件之间的变化。例如,广义线性模型已被用于通过比较病例与对照组来确定细胞类型比例中的差异丰度,并确定跨培养条件的差异表达基因,同时使用固定效应的变量如性别和年龄以及随机效应的病人和批次来计算重要的协变量。
或者,基于深层神经网络的统一单细胞转录组学分析的新方法已经被开发出来,通过拟合单个生成模型,可以同时对数百万个细胞进行批量校正、归一化、插补、降维和聚类,例如,scVI、SAUCIE。
一旦跨数据集识别出主要的单元类型,就可以应用递归聚类来识别更精细的单元状态。递归聚类已应用于肺癌间质细胞和肿瘤浸润的髓样细胞。