Chris大王
在单细胞分析当中,经常会遇到整合分析的问题,即去除多样本数据之间的 批次效应(batch effect) ,那么什么是批次效应呢?简而言之,批次效应就是由于不同时间、不同实验人员、不同仪器等因素造成的实验性误差,而非本身的生物学差异。如果我们不去除批次效应,那么这些差异就会和本身的生物学差异相混淆。但是随着测序成本的降低,单细胞测序已经“深入寻常百姓家”,所以在追求大数据量的同时,肯定会伴随着batch effect的产生,自然batch effect的去除就成为单细胞数据分析的重要技能。2020年发表在 Genome Biology 上的一篇文章系统性总结了目前的batch effect去除方法。
今天给大家分享几种目前使用比较广泛的单细胞数据整合分析的方法。 本次演示所使用的示例数据如有需要,可在留言区留言获取。
首先是直接使用merge()函数对两个单细胞数据进行直接整合,这时我们需要准备的输入文件为一个 由需要去除batch effect的Seurat对象组成的列表 ,那么如何实现呢?
注意,我们这里的数据是怎么存放的,我们在 GSE129139_RAW/ 这个文件夹下面存放着我们需要去除batch effect的样品数据,一个样品,一个文件夹,每个文件夹里面是什么就不用说了吧!
上面的code实际上做了这样的一件事:按顺序读取了存放着三个Read10X()输入文件的文件夹,并依次创建了Seurat对象,存放在一个名为sceList的列表中。 然后我们利用merge()函数进行数据的整合:
需要注意的是:(1)我们想把sample信息添加到cell barcode上,只需要添加add.cell.ids参数即可,这个参数赋给它一个向量;(2)上述的merge()默认只会简单整合源数据(raw data),如果你的Seurat对象是已经经过NormalizeData()的,可以直接添加merge.data = TRUE,来merge标准化后的数据。
By default, merge() will combine the Seurat objects based on the raw count matrices, erasing any previously normalized and scaled data matrices. If you want to merge the normalized data matrices as well as the raw count matrices, simply pass merge.data = TRUE . This should be done if the same normalization approach was applied to all objects.
这是Seurat为了适应大需求添加的新功能,锚点整合是从Seurat3开始上线的,其原理在这里不赘述,放出原始论文链接 Stuart , Butler , et al., Cell 2019 [Seurat V3] 同样是需要由几个Seurat对象组成的列表作为输入,不同的是, 我们需要提前对数据进行NormalizeData()和FindVariableFeatures()处理 :
需要注意的是,从这里开始,后面的数据分析请指定assay为integrated,否则你还在用原始的RNA assay进行分析,等于没整合。你可以通过以下命令更改默认assay,这样就不用每次都进行声明!
harmony单细胞数据整合方法于2019年发表在 Nature Methods 上,题为 Fast, sensitive and accurate integration of single - cell data with Harmony 。harmony整合方法算得上是一种比较好的方法,目前应用也是比较多的,原理见文章,这里继续展示具体流程:
需要注意的是,如果你用harmony整合,后续的下游分析,请指定 reduction = 'harmony' ,否则你的整合没有意义。
把你的锅盖盖好
器官包含了众多类型的细胞,其中不同的细胞在空间上的相互作用,与其功能密切相关。然而,单细胞测序破坏了细胞间的空间关系,而空间转录组并不能区分出特定的细胞。如何将这两类数据整合使用,自然遗传学综述21年6月的论文“整合单细胞和空间转路组数据,来阐述组织空间细胞间动态的论文,概述了相关方法。 空间转录结合单细胞,可应用于对组织内稳态,组织发育,疾病微环境,肿瘤和免疫细胞组织的微环境中,不同类型的细胞如何在空间互作的研究。 该类研究的步骤是,先对不同类型的细胞测序后进行聚类,之后通过空间标记及染色切片,拿到空间的转录信息,之后对空间中的每个方格进行细胞类型判别,得出图d中,两种细胞间相互作用的,关于配体受体相互作用的发现,即绿色的细胞和红色的细胞相邻,而红色的蓝色的细胞不相邻,故其中没有相互作用。 具体的研究步骤,首先是选出研究的关注点,之后对组织样本进行切片,通过空间标记和单细胞测序,找出高分辨率RNA探针的影像(HPRI),之后对方格进行细胞类型判别,识别出组织间的分界线,之后对细胞间的交互进行分析。 单细胞和空间转录数据的结合算法,可以分为三类。 第一类是逆卷积Deconvolution ,其输入是单细胞数据和空间标记(barcoding)得到的空间转路组数据,输出是每个方格内,不同细胞类型所占的比例及每类细胞个数,该类方法包括SPOTlight,SpatialDWLS,stereoscope,Robust cell-type decomposition及cell2location。 Deconvolution 式整合的示意图 第二类方法映射 ,是对探针得出的某部分组织的转录本数据(HPRI),根据和单细胞数据进行共聚类或最近邻回归,得到某个区域中最可能的细胞类型或不同细胞类型的概率饼图,该类方法包括pciSeq,Harmony,LIGER,Seurat等。 映射法整合空间转录和单细胞的方法示意图 逆转录和映射这两种方法之间,并不存在清晰的分界线。前者分别关注每个空间中方格的情况,后者则是全局的进行分析。从使用的统计模型,可以将单细胞和空间转录整合的方法,分为以下四种,分别是,基于回归的,基于概率模型店,通过相对聚集程度计算得分的,基于后聚类的方法,每种方法越来越倚重整个切片的全局信息,而不是对每个方格进行独立地判定。 四种统计模型及其和前述的两类方法的对应关系 而第三类方法,可以直接完成空间上的配体受体相互作用分析 ,例如Fawkner Corbett 等 在2021年提出的方法,可以使用barcoding空间转录组和单细胞数据,算出相邻的以及单个方格内部,一对指定细胞间,是否存在相互通讯的P值和相关系数;Giotto则是根据HPRI或barcoding数据,得出每对不同类型的细胞间相互通讯的分值。SpaOTsc则是得出二维或三维的细胞间通讯地图,而SVCA(空间差异成分分析),则可量化的估计空间上的表达量差异,有多少比例可以被细胞间的互作解释。 在判定细胞间的相互作用是否存在时,具体的机制分为两种,首先是下图A中描述的,相邻的细胞间存在相互作用,而图B描述的,则是对于空间上不相邻的两类细胞,如果一个细胞表达了另一个细胞所需的目标基因,那么也可以判定这两类细胞间存在着相互通信。最下方的图,则说明只基于单细胞数据,可以根据表达的基因判定两类细胞间,并不存在相互通信,但空间组数据的引入,可以预测细胞间通信的最长可能距离,并发现之前根据染色数据得出的,空间上能够相互交流的细胞可位于的最远的距离其实比实际距离要低。 该研究的未来方向,一是关注多个切片放映的组织学特征,而不仅仅是单张切片上细胞间的相互交流,例如 ST-Net,可以根据102个基因的空间变化,通过深度学习识别组织层面的相互作用;二是临床上的应用,例如对肿瘤及神经退行性疾病发展过程中,不同类型细胞发挥的作用的研究。
21世纪生命科学的研究进展和发展趋势 20世纪后半叶生命科学各领域所取得的巨大进展,特别是分子生物学的突破性成就,使生命科学在自然科学中的位置起了革命性的变化。
许教授主要研究领域为分子和细胞神经生物学,特别是在研究老年痴呆症发病机理方面,涉及到遗传学,神经生物学,细胞和分子生物学等多个专业领域;主要研究方向是阐明βAP
有丝分裂是谁发现的?目前大家公认的是德国生物学家弗莱明(W. Flemming)发现的。在观察了蝾螈细胞分裂现象的基础上,弗莱明于1882年提出了“有丝分裂”(
题目的拟定对于一篇医学论文来说至关重要,选题有意义,写出来的 文章 才有学术价值,如果选定的题目毫无意义或过于偏狭,也毫无价值可言。下面我给大家带来2021
国家科技部支撑计划评审专家,国家科技部国际合作计划战略专家、项目评审专家,国家自然科学基金、国家教育部博士点专项基金、国家卫生部科研基金评审专家,省自然科学基金