10X空间转录组和10X单细胞数据的联合分析方法总结
空间转录组数据被聚类,具有相似表达斑点将被聚类成一类。
这种方法用于以单细胞分辨率对人类有意发展进行时空分析的文献中,发表于cell。文章主要研究肠道发育。通过使用这种联合分析方法,我们主要看肠道发育过程中细胞类型的变化。
这种方法发表在《自然生物技术》的文章中。
这需要很强的背景,尤其是对于不规则的样本,更需要很强的生物背景作为支撑来进行划分,而第一步是很难的。
算法这里就不多说了。可以看看我之前分享的文章。这种方法用的会比较少。
这个方法我之前分享过,文章在Cell 2Location,一个单细胞和空间在10X的联合分析方法。这种方法类似于以前的普通转录组解卷积方法,这篇文章是通过整合单细胞和空间转录组对组织细胞结构进行全面作图。让我们简单看一下这个过程:
Cell2location通过整合来自给定组织的单细胞RNAseq (scRNA-seq)和多细胞空间转录组数据来绘制细胞类型的空间分布。
从示意图来看,单个单元被用作匹配单元类型的空间位置的参考,并且该方向不能改变。
首先,第一步是利用模型估计单细胞数据的细胞类型的表达特征。例如,通过使用常规聚类来识别细胞类型和亚群,然后估计平均聚类的基因表达谱(如下图所示)。
需要一步步分析。Cell2location基于负二项式回归实现这一估计步骤,因此可以跨技术和批次可靠地组合数据。(又是数学)。
步骤2:细胞2的位置使用参考信号在空间转录组学数据中对mRNA进行计数,从而估计每个空间位置上每种细胞类型的相对和绝对丰度。(分解数据)。
Cell2location实现为一个可解释的分层贝叶斯模型,其中(1)提供了解决模型不确定性的原则性方法,(2)解决细胞类型丰度的线性依赖性,(3)模拟不同技术之间的测量灵敏度差异,以及(4)通过采用灵活的基于计数的误差模型解决无法解释的/残留的变化。最后,由于变分近似推理和GPU加速,单元2定位在计算上是高效的。(我们将在下一篇文章中分享和分析这些方法)。
为了验证细胞2的位置,我们最初使用模拟数据来反映不同的细胞丰度和空间模式。(作者模拟了空间转录组数据)。
这里需要注意的是Jensen-Shannon散度,也就是J-S散度,下面讲解数学的内容。
简而言之,我们模拟了一个具有2000个位置的空间转录组数据集,基于从包括46种细胞类型的小鼠脑snRNA-seq参考数据集获得的参考细胞类型注释,每个位置的多细胞基因表达谱是通过组合从不同参考细胞类型提取的细胞,使用具有可变密度和稀疏分布的四种细胞丰度模式之一来模拟真实数据中观察到的模式而得到的。然后使用cell2location进行分析,得到图中的结果。基本上有很高的相关性,但是这里有一个问题,就是模拟的空间转录组数据是由单细胞数据合并而来的。一旦真实的空间转录组数据包含了一些单细胞不存在的细胞类型(比如技术壁垒,10X单细胞捕获中性粒细胞的结果很差),那么预测的结果很可能是错误的。后面看看作者有没有提到这个问题。
接下来,我们将cell 2定位与最近提出的从空间转录组推断相对细胞类型丰度的替代方法进行了比较。同样文献的结果,我自己的软件表现最好。并且该模型还产生相对细胞类型丰度的更精确的估计。
这里需要注意的是PR曲线,下面解释这些数学问题。
cell2location不仅提供了相对细胞类型分数的估计,而且还估计了绝对细胞类型丰度,绝对细胞类型丰度可以解释为在给定位置表达参考细胞类型标记的细胞数量,这也与模拟的真实情况高度一致(这也是非常重要的)。
简而言之,结果支持细胞2定位可以准确地估计不同细胞类型的细胞基础。
然后文章用两个例子来解决我们用这种软思想进行联合分析的问题。这里就不说具体案例了,我们需要更多的了解算法的原理。
先解决J-S背离和PR曲线。
KL散度也叫相对熵、信息散度、信息增益。KL散度是两个概率分布P和Q之差的不对称性的度量..千升
散度是使用基于Q的编码对来自P的样本的平均值进行编码所需的额外比特数的度量。通常,p代表数据的真实分布,q代表数据的理论分布、模型分布或近似分布。
定义如下:
因为对数函数是凸的,所以KL散度的值是非负的。
对比PR曲线和ROC曲线,可以了解更多。可以参考我关于ROC曲线的讲解,深入了解R-bag AUcell在分析单细胞中的作用。
和PR曲线
模型的简要介绍
关于cell2location模型的完整推导,请参见补充计算方法。简单来说,cell2location是一个贝叶斯模型,通过分解mRNA计数来估计细胞类型的绝对细胞密度?每个基因的s,g?= {1, .。, ?}地点?= {1, .。, ?对于10X Visium数据,该矩阵可直接由10X space ranger软件支持,并导入到流行的python软件包scanpy中使用的数据格式中(scanpy可用于读取10X分析数据,Suerat也可用于分析)。d,s,G应该被过滤成一组在单细胞参照物G,f中表达的基因。这个地方的处理在于,当一个单细胞被映射到一个空间转录组时,表达的基因是相同的。cell2location的图表模型如下:
设G = {g f,g },表示参考细胞类型特征的F×G矩阵,它由F = {1,...,F}基因表达谱G f,:对于g = {1,...,G}基因,代表每种细胞类型中每种基因在线性mRNA计数空间(非对数空间)中的平均表达。该矩阵需要提供给细胞2的位置,并且可以从scrna-seq profiles中估计。这里我们可以看到每种细胞类型的基因表达被平均化来代表这种细胞类型。单元格2位置将d的元素建模为负二项分布,这个地方稍微讲一下负二项分布,
负二项分布是统计学中的一种离散概率分布。一个负二项分布满足以下条件:实验包含一系列独立的实验,每个实验有成功和失败两种结果,成功的概率为常数,实验持续r次不成功,r为正整数。可以参考百度百科的负二项分布,不过从这里开始只是背景开始涉及到很深的数学。我不会数学,但我不以数学为荣,所以希望有数学大牛来分享内容。
最后,展示分析的结果。
这种方法目前处于早期阶段,还需要更多的验证。
这个方法也是非负体积积分求解方法,是一个R包。目前高分文章没有引用过,但是方法还不错。对于spotlight的算法,可以看spotlight和spotlight_github,这里不介绍算法,如图:
比如scanpy的联合分析法,我们就不多介绍了,希望对大家有帮助。
纽约比加州早三个小时,但这并不意味着加州慢
喀麦隆比纽约早六个小时,但这并不意味着纽约慢。
有人22岁大学毕业,却等了五年才找到工作。
有人25岁当上CEO,50岁就去世了。
有人50岁成为CEO,却活到了90岁。
有人还是单身,
而另一个人已经结婚生子
当然,这个世界上的每个人都是根据他们自己的时区工作的。
你周围的人可能看起来比你先进。
那完全没问题。有些在你后面。
每个人都在自己的时区跑着自己的比赛。
不要羡慕或嘲笑他们。
他们在他们自己的时区,你在你的时区。
生活就是等待恰当的时机做出反应。
所以放松点。
你没有迟到
你没早到
你非常准时,而且在你的时区内。
每个人都有不同的试卷,代表不同的问题。
每个人都有不同的任务,意味着不同的人生目标。
所以专注于你自己的试卷,你的作业和目的。
不要复制粘贴或窃取答案,否则你会失败的。
你的梦和幻觉都是有效的。慢慢来,尽你所能。
像蜂鸟一样。即使当强大的狮子和老虎低估了他,他继续做他能做的,他在哪里,就像他一样,用他仅有的一点。
你现在这样很好。你今天做的小工作可能看起来微不足道,但我打赌有一天你会看到全局。
你没有迟到!你没早到。