实验记录10:单片眼镜伪时间分析

本文主要讨论将修拉物体导入Monocle进行直接分析的可行性,分为两种情况:

①数据清洗、标准化、聚类后的修拉对象导入。

②导入修拉对象,不做任何处理。

下面简单介绍一下Monocle包,然后在这两种情况下尝试一下。

为什么要尝试这两种情况?

http://cole-trapnell-lab.github.io/monocle-release/

介绍

Monocle引入了利用RNA-Seq进行单细胞轨迹分析的策略,可以将细胞按照模拟的时间顺序排列,显示其发育轨迹如细胞分化等生物过程。Monocle通过无监督或半监督学习从数据中获得这个轨迹。

无监督:使用Monocle自带的一套工具或Seurat生成基因列表。

半监督:通过自身的知识积累,人为输入一些被认为重要的基因。

Monocle并没有通过实验将细胞净化成离散的状态,而是使用算法来学习每个细胞作为动态生物过程的一部分必须经历的基因表达变化的序列。一旦它知道了基因表达变化的整体“轨迹”,Monocle就可以将每个细胞放置在轨迹中的适当位置。然后,我们可以使用Monocle的差异分析工具包来找到在轨迹过程中受调控的基因。如果过程有多个结果,Monocle将重建“分支”轨迹。这些分支对应着细胞“决策”,Monocle提供了强大的工具来识别受其影响的基因并参与决策。网站中还提供了分析分支的方法。Monocle依靠反向图嵌入的机器学习技术来构建单细胞轨迹。

除了构建单细胞轨迹,它还可以进行差异表达分析和聚类,以揭示重要的基因和细胞。这和修拉的作用类似。

工作流及其与修拉的异同

Res.0.6是集群的数量。将列名更改为“cluster ”,以备后用。

确保该列的范围是0到8,即,***9簇。

计算是为了方便后面的分析。

既然这些数据已经被清理了,就不需要在Monocle中再次处理了。

按照作者的建议,即使是在修拉包中已经标准化的数据,在转换成单片眼镜时,仍然需要再次标准化。

首先,因为一个单元格可以细分为更小的类别,所以在用marker给出单元格类别时,要考虑它们的对应关系。比如CD4基因对应的细胞是CD4+ T细胞,CD4+T细胞属于T细胞的一种,那么我们就要告诉Monocle CD4+T CD4+T细胞属于T细胞的一个子集,让它在分类的过程中不要把它们分成两类。

Monocle提供了一个函数newCellTypeHierarchy来对单元格进行分级。

将标记与单元格匹配,并排列它们的从属关系。

下一步是对细胞进行分类。

检查细胞分类。

查看可用于颜色辨别的变量:

其实正常情况下,这一步应该有一个时间变量(如小时或时间)来区分不同时间批量处理产生的数据,使亮部的数据根据寄生时间的不同而着色,从而观察细胞状态(发育/分化)随寄生时间的变化。脾脏的数据,虽然是按照四个时间点进行处理,但是并没有按照不同的时间点进行区分,所以我们只能根据细胞分化的过程来确定哪个是原始状态。

这是一个树形图,有三个细胞轨迹,表示细胞状态主要分为三个阶段,中间的数字1表示一个分叉。

上图中的细胞是根据不同的簇来着色的。根据之前的Seurat聚类分析,Cluster5(浅蓝色)对应中性粒细胞,此图位于上述分支的顶端;Cluster0(红色)对应B细胞,主要位于右支顶端;左下角上方的蓝色可能是NK细胞,但不确定。右边的好像更适合初始状态。对比下图,结果差不多。

上图分别显示了每个细胞的分布轨迹,很明显B细胞集中在右支顶端,然后集中为T细胞,中间混有一些中性粒细胞(也可能是分不清楚)。但是大部分细胞还是没有分离出来,这个结果需要重新处理。

因为Monocle分不清哪个轨迹是“根”,也就是不知道哪个细胞状态更初始,所以我们可以设置root_state参数来设置哪个轨迹是初始状态。然后给每个细胞一个伪时间值,我们可以观察伪时间内基因表达的变化。细胞分类处理完毕后,可以继续做这一步。

创建一个修拉对象spleen _ monocle,先去掉一些测序质量差的细胞:

保留所有in > =至少在3个细胞中表达的基因。细胞= 3;

保留所有检测到的> 200个基因的细胞。基因=200。

从Monocle导入修拉对象。

查看数据:

15655个基因,1959个细胞,与之前创建的修拉对象一致。

计算是为了方便后面的分析。

根据上面提到的表达式,可以使用nUMI值进行过滤。

注意这里有一个额外的Size_Factor列。

留下两条垂直线的中间部分:

过滤后,剩余1864个细胞和15655个基因。

SetOrderingFilter标记一些基因,用于后面的聚类;

Plot_ordering_genes根据这些基因的平均表达水平来表示基因表达差异的程度,红线表示Monocle基于这种关系对离散度的期望。我们用于聚类的基因显示为黑点,其他基因显示为灰点。(我不太明白这里纵坐标离差的经验值是什么意思)

制作砾石地图:

选择前8个组件进行聚类。

如果把每个时间点的细胞聚集在一起,那么粗略来说,这个图只是分成了四个模块。

这里您可以使用Monocle包中的dpFeature命令来选择基因。

另一种方法是根据生物学知识人工选择基因:

HSPA1A*基因是Seurat package之前发现的一个有趣的基因,它在几乎所有的集群中都有不同程度的表达(如下图)。通过文献查阅发现该基因表达热休克蛋白。这种蛋白的表达是缺血/缺氧期间的一种保护机制,可用作心脏骤停患者的预后标志。有学者研究了脑缺血持续时间与HSPA1A表达的关系。虽然本文最后的结论是两组(缺血时间30分钟和60分钟)的表达没有显著差异,但是脾缺血已经处理了12h、24h和72h,时间跨度长了很多,所以还是有很好的研究价值。

所以我觉得也可以选择HSPA1A作为反映细胞状态的标志基因。

建筑

下面没有跑步!!!

[1]Jenei,Z.M .,Széplaki,g .,Merkely,b .等人细胞应激与伴侣蛋白(2013) 18: 447。https://doi . org/10.1007/s 12192-012-0399-2

[2]崔志,金淑德,金胜,林德杰,夏淑娟。基于小鼠缺血持续时间和脑梗死体积的海马热休克蛋白-70表达的半定量分析。j韩国神经外科学会。2014;55(6):307-12.