neil2446326902
人会撒谎,但证据不会。
——《法证先锋4》
几乎每个案件都会有通过生物信息学来破解身源之谜的经典桥段,毕竟自1985年英国遗传学家Alec Jeffreys首次报道DNA指纹技术以来,法医DNA检验技术已经在众多刑事、民事案件及一些重大事件中发挥重要的作用,是一门让无声物证“开口说话”的艺术。
现如今,在法医工作中,基因组学、表观组学、转录组学和其他相关分析方法共同致力于解决“基因组”、“信息结构”和“复杂性”三个关键科学问题。
01 基因组学
开发可供法医学应用的多态性位点一直都是法医遗传学研究的热点和基础问题。目前法医学常用位点主要是位于不同染色体上的DNA遗传标记,比较常见的有短串联重复序列(Short tandem repeats,STRs)和单核苷酸多态性(Single-nucleotide polymorphisms,SNPs)等。
STR基于个体特异性高、多态信息含量高、共显性遗传等特点,一直被广泛应用于法庭科学中的个体识别与亲权鉴定中,是法医学中最常见的遗传标记;而SNP大都是二等位基因,易于分型,适合PCR扩增以及用来分析降解DNA和混合样本,但单个SNP的信息含量其实很少,需要大量的SNP位点信息堆叠才具有参考和区分价值。
02 表观组学
表观遗传学是指DNA序列没有发生变化,而基因表达发生变化,表观遗传中研究最多的是DNA甲基化。DNA甲基化在法医学亲缘关系鉴定、年龄推断、同卵双生子的鉴别以及组织来源鉴定中发挥着重要的作用,DNA甲基化数据库工作也在稳步推进中,目前比较常见的DNA甲基化数据库主要有:NCBI Epigenomics、MethDB、MethBank等。
03 转录组学
RNA是DNA的转录产物,与遗传信息的表达和调控有关。在法医学研究中,主要是通过芯片和高通量测序技术对mRNA和miRNA的差异表达来进行体液斑和种属特异性鉴定以及死亡时间推断等方面的研究。
04 其他相关分析方法
随着生物信息学研究的深入,越来越多的研究发现微生物以及动植物等非人源物证在法医学的研究中显得日益重要,与之相关的生物信息分析方法也不断得到发展,通过对尸体周围的微生物的群体特征,群体水平的新陈代谢重组情况以及土壤的生化水平等进行分析,发现微生物在死亡时间以及死亡地点的判定中发挥着重要的作用。
让无声物证“开口说话”的艺术仍在书写,实验室里的每一件物证,每一瓶试剂,每一个样本,每一份报告,都在诉说着法医事业的发展历程,他们没有影视剧里神秘的面纱,却依然脚踏实地而铿锵有力地执行着“人会撒谎,但证据不会”的使命。
参考文献
1. 赵晶, 唐晖, 严江伟. 生物信息学在法医学中的应用与展望[J]. 中国法医学杂志,2018,033(001):43-46.
吃货肥仔喵
分子层面对生物的研究,在个体水平上主要是看单个基因的变化以及全转录本的变化(RNA-seq);在对个体的研究的基础上,开始了群体水平的研究。如果说常规的遗传学主要的研究对象是个体或者个体家系的话,那么群体遗传学则是主要研究由不同个体组成的群体的遗传规律。 在测序技术大力发展之前,对群体主要是依靠表型进行研究,如加拉巴哥群岛的13中鸟雀有着不同的喙,达尔文认为这是自然选择造成的后果 。达尔文的进化论对应的观点可以简单概括为“物竞天择,适者生存”,这也是最为大众所接受的一种进化学说。直到1968年,日本遗传学家提出了中性进化理论[2],也叫中性演化理论。中性理论的提出很大程度上是基于分子生物化学的发展。可以这样理解中性理论:一群人抽奖,在没有内幕的情况下,每个人抽到一等奖的概率是相等的,这个可能性和参与抽奖的人的身高、年龄、爱好等因素都没有关系。中性理论常作为群体遗传研究中的假设理论(CK)来计算其他各种统计指标。 群体遗传学,研究的单位是群体,比如粳稻、籼稻、野生稻,就能够构成不同的群体;我们国内的各省份的水稻也可以作为一个个群体。 群体遗传学大概可以分为群体内的研究和群体间的研究。比如研究云南元阳的水稻的遗传多样性;如果研究是的云南元阳的水稻和东北的水稻,那就可以算成是群体间的研究。群体间和群体内的研究是相互的。 测序价格的急剧下降[3]使得大规模的群体测序得以实现。
常见的变异类型有SNP、IdDel、SV、CNV等。重测序中最关注的是SNP,其次是InDel。其他的几种结构变异的研究不是太多。
有参考基因组的物种的全基因组测序叫做重测序,没有参考基因组的物种的全基因组测序则需要从头组装。随着测序价格的降低,越来越多物种的参考基因组都已经测序组装完成。 plant genomes [4]网站实时显示全基因组测序已经完成的植物,其中2012年以后爆发式增长。在群体遗传学研究中更多的是有参考基因组的物种,尤其是模式物种,植物中常见的是拟南芥、水稻和玉米。
主要的分析流程见下图。现在的测序公司基本上都会帮客户完成整个的分析流程,因为主要耗费的资源是计算资源。我认为在整个分析的流程中最重要的是Linux目录的构建,混乱的目录会导致后续的分析频频出问题,重测序分析会生成很多的中间文件,良好的目录管理会使得项目分析流程井然有序。 该部分涉及到的软件的安装和基础的Linux基础知识就不详细说明了。
正选择似乎可以更好地用自然选择来解释。就是一个基因or位点能够使个体有着更强的生存力或者是育性,这样就会使得这个个体的后代更多,如此一来,这个基因or位点在群体中就越来越多。
正选择能够使有利的突变基因or位点在群体中得到传播,但是与此同时却降低了群体的多态性水平。也就是说原先该位点周围的核苷酸组成是多样性的,在经过正选择之后,这个位点周围核苷酸的多样性就渐渐的趋于同质化了。这就好比一块田,里面本来有水稻和稗草及其他杂草,由于稗草的适应性增强,稗草在逐渐增多,水稻慢慢变少,最后甚至是只剩下了稗草。 我们将这种选择之后多态性降低的情况叫做选择扫荡(Selective Sweep)。检测选择扫荡的软件有SweeD[7]。选择扫荡有可能是人工选择的结果,如2014年 Nature Genetics关于非洲栽培稻的文章就使用了SweeD来检测非洲栽培稻基因组上受人工选择的区域[8]。
负选择和正选择刚好是相反的。简单理解成群体中的某个个体出现了一个致命的突变,从而自己或者是后代从群体中被淘汰。这也导致群体中该位点的多态性的降低。就好比我有10株水稻,其中一株在成长过程中突然不见了,那么对我的这个小的水稻群体来说,这个消失的水稻的独有的位点在群体中就不见了,整体的多态性就降低了。
平衡选择指多个等位基因在一个群体的基因库中以高于遗传漂变预期的频率被保留,如杂合子优势。
平衡选择检测的算法有BetaScan2[10],这是个Python脚本,输入文件只需要过滤好的SNP数据即可。
计算公式为: 其中 是有效群体大小, 是每个位点的突变速率。 但是群体大小往往是无法精确知道的,需要对其进行估计。
分离位点数 是 的估计值,表示相关基因在多序列比对中表现出多态性的位置。计算公式为: 其中 为分离位点数量,比如SNP数量。 为个体数量的倒数和:
指的是核苷酸多样性,值越大说明核苷酸多样性越高。通常用于衡量群体内的核苷酸多样性,也可以用来推演进化关系[11]。计算公式为: 可以理解成现在群体内两两求 ,再计算群体的均值。计算的软件最常见的是 vcftools ,也有对应的R包 PopGenome 。通常是选定有一定的基因组区域,设定好窗口大小,然后滑动窗口进行计算。 3KRGP文章就计算了水稻不同亚群间4号染色体部分区域上的 值[12],能够看出控制水稻籽粒落粒性的基因 Sh4 位置多态性在所有的亚群中都降低了。说明这个基因在所有的亚群中都是受到选择的,这可能是人工选择的结果。
Tajima's D是日本学者Tajima Fumio 1989年提出的一种统计检验方法,用于检验DNA序列在演化过程中是否遵循中性演化模型[14]。计算公式为: D值大小有如下三种生物学意义:
叫固定分化指数,用于估计亚群间平均多态性大小与整个种群平均多态性大小的差异,反映的是群体结构的变化。其简单估计的计算公式为: 的取值范围是[0,1]。当 时,表明亚群间有着明显的种群分化。 在中性进化条件下, 的大小主要取决于遗传漂变和迁移等因素的影响。假设种群中的某个等位基因因为对特定的生境的适应度较高而经历适应性选择,那该基因的频率在种群中会升高,种群的分化水平增大,使得种群有着较高的 值。 值可以和GWAS的结果一起进行分析, 超过一定阈值的区域往往和GWAS筛选到的位点是一致的,如2018年棉花重测序的文章[15]:
ROD可以基于野生群体和驯化群体间核苷酸多态性参数 的差异识别选择型号,也可以测量驯化群体和野生型群体相比损失的多态性。计算公式为: 和 一样,ROD也可以和GWAS结合起来:
群体结构分析可以简单理解成采样测序的这些个体可以分成几个小组,以及给每个个体之间的远近关系是怎么样的。群体结构分析三剑客, 分别是 进化树 、 PCA 和 群体结构图 。
进化树就是将个体按照远近关系分别连接起来的图。
常用的绘图软件是 Phylip 和 Snpphylo 。进化树修饰的软件有 MEGA , ggtree 等,推荐网页版工具 iTOL ,无比强大。 外群定根法:当群体的个体的差异很小时,可以引入其他物种作为根。如在对三叶草建树时可以引入水稻的序列作为根进行建树。
PCA是很常见的降维方法,如微生物研究中常用来检验样品分群情况。PCA计算的软件很多,plink可以直接用vcf文件计算PCA,R语言也可以进行PCA计算。
PCA图在群体重测序中有如下几种作用:
进化树和PCA能够看出来群体是不是分层的,但是无法知道群体分成几个群合适,也无法看出群体间的基因交流,更无法看出个体的混血程度。这时候就需要群体分层图了。
可以将进化树和群体分层图结合进行展示,如下图:
先了解下概念,此处借鉴基迪奥生物网站的解释[22]。 要理解 LD 衰减图,我们就必须先理解连锁不平衡(Linkage disequilibrium,LD)的概念。连锁不平衡是由两个名词构成,连锁 + 不平衡。前者,很容易让我们产生概念混淆;后者,让这个概念变得愈加晦涩。因此从一个类似的概念入手,大家可能更容易理解 LD 的概念,那就是基因的共表达。 基因的共表达,通常指的是两个基因的表达量呈现相关性。比较常见的例子就是:转录组因子和靶基因间的关系。因为转录因子对它的靶基因有正调控作用,所以转录因子的表达量提高会导致靶基因的表达量也上调,两者往往存在正相关关系。这个正相关关系,可以使用相关系数 来度量,这个数值在 - 1~1 之间。总而言之,相关性可以理解为两个元素共同变化,步调一致。 类似的,连锁不平衡(LD)就是度量两个分子标记的基因型变化是否步调一致,存在相关性的指标。如果两个 SNP 标记位置相邻,那么在群体中也会呈现基因型步调一致的情况。比如有两个基因座,分别对应 A/a 和 B/b 两种等位基因。如果两个基因座是相关的,我们将会看到某些基因型往往共同遗传,即某些单倍型的频率会高于期望值。 参照王荣焕等[23]的方法进行LD参数计算:
随着标记间的距离增加,平均的LD程度将降低,呈现出衰减状态,这种情况叫LD衰减。LD衰减分析的作用:
GWAS(genome-wide association study),全基因组关联分析,常用在医学和农学领域。简单理解成将SNP等遗传标记和表型数据进行关联分析,检测和表型相关的位点,然后再倒回去找到对应的基因,研究其对表型的影响。这些被研究的表型在医学上常常是疾病的表型;在农学上常常是受关注的农艺性状,比如水稻的株高、产量、穗粒数等。GWAS思想首次提出是在心肌梗塞的治疗上[24],首次应用是在2005年的文章上[25]。
目前使用最广泛的模型是混合线性模型[26]:
所有的参数软件(如Emmax)会自动完成计算。
GWAS结果文件通常只有两个图,一个是曼哈顿图,另外一个是Q-Q图。一般是先看Q-Q图,如果Q-Q正常,曼哈顿图的结果才有意义。
MSMC(multiple sequentially Markovian coalescent)[27],底层算法很复杂,类似于PSMC。MSMC的主要功能是推断有效群体大小和群体分离历史。
这样看起来更直观:
LAMP(Local Ancestry in Admixed Populations,混杂群体的局部族源推断),用于推断采用聚类的方法假设同时检测的位点间不存在重组情况,对每组相邻的 SNP 进行检测分析[28],在运算速度和推断准确度上都有了质的飞跃。
用于推断群体分离和混合[29]。图是这样的:
测序方案关系到后续的分析,不同的样本量对应不同的测序方法和分析方法。
[1]. 自然选择(维基百科) [2]. Kimura, Motoo. "Evolutionary rate at the molecular level." Nature . (1968): 624-626 . [3]. 测序价格变化趋势 [4]. plant genomes [5]. DePristo, Mark A., et al. "A framework for variation discovery and genotyping using next-generation DNA sequencing data." Nature Genetics . (2011): 491. [6]. Biswas, Shameek, and Joshua M. Akey. "Genomic insights into positive selection." ** TRENDS in Genetics . (2006): 437-446. [7]. Pavlidis, Pavlos, et al. "Sweed: likelihood-based detection of selective sweeps in thousands of genomes." Molecular biology and evolution (2013): 2224-2234. [8]. Wang, Muhua, et al. "The genome sequence of African rice (Oryza glaberrima) and evidence for independent domestication." Nature Genetics (2014): 982. [9]. Bamshad, Michael, and Stephen P. Wooding. "Signatures of natural selection in the human genome." Nature Reviews Genetics (2003): 99. [10]. Siewert, Katherine M., and Benjamin F. Voight. "BetaScan2: Standardized statistics to detect balancing selection utilizing substitution data." BioRxiv (2018): 497255. [11]. Yu, N.; Jensen-Seaman MI; Chemnick L; Ryder O; Li WH (March 2004). Genetics . 166 (3): 1375–83. [12]. Wang, Wensheng, et al. "Genomic variation in 3,010 diverse accessions of Asian cultivated rice." Nature (2018): 43. [13]. Li, C., Zhou, A. & Sang, T. Rice domestication by reducing shattering. Science 311, 1936–1939 (2006). [14]. Tajima, Fumio. "Statistical method for testing the neutral mutation hypothesis by DNA polymorphism." Genetics (1989): 585-595. [15]. Du, Xiongming, et al. "Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits." Nature Genetics (2018): 796. [16]. Lu, Kun, et al. "Whole-genome resequencing reveals Brassica napus origin and genetic loci involved in its improvement." Nature communications . (2019): 1154. [17]. Zhou, Z., Jiang, Y., Wang, Z. et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean. Nat Biotechnol 33, 408–414 (2015). [18]. Liang, Z., Duan, S., Sheng, J. et al. Whole-genome resequencing of 472 Vitis accessions for grapevine diversity and demographic history analyses. Nat Commun 10, 1190 (2019). [19]. Alexander, ., Lange, K. Enhancements to the ADMIXTURE algorithm for individual ancestry estimation. BMC Bioinformatics 12, 246 (2011). [20]. Francis, Roy M. "pophelper: an R package and web app to analyse and visualize population structure." Molecular ecology resources (2017): 27-32. [21]. . [22]. . [23]. WANG Rong-Huan, WANG Tian-Yu, LI Yu. Linkage disequilibrium in plant genomes[J]. HEREDITAS , 2007, 29(11): 1317-1323. [24]. Ozaki, K., Ohnishi, Y., Iida, A. et al. Functional SNPs in the lymphotoxin-α gene that are associated with susceptibility to myocardial infarction. Nat Genet 32, 650–654 (2002). [25]. Klein, Robert J., et al. "Complement factor H polymorphism in age-related macular degeneration." Science (2005): 385-389. [26]. Yu, Jianming, et al. "A unified mixed-model method for association mapping that accounts for multiple levels of relatedness." Nature genetics (2006): 203. [27]. Schiffels, Stephan, and Richard Durbin. "Inferring human population size and separation history from multiple genome sequences." Nature genetics (2014): 919. [28]. Sankararaman, Sriram, et al. "Estimating local ancestry in admixed populations." The American Journal of Human Genetics (2008): 290-303. [29]. Pickrell, Joseph K., and Jonathan K. Pritchard. "Inference of population splits and mixtures from genome-wide allele frequency data." PLoS genetics (2012): e1002967. [30]. Chen, Jia-hui, et al. "Genome-wide analysis of Cushion willow provides insights into alpine plant divergence in a biodiversity hotspot." Nature communications (2019): 1-12. [31]. 孙宽,侯一平。法医族源推断的分子生物学进展 [J]. 法医学杂志 ,2018,34 (03):286-293. [32].
小北京西城
基础类大学一般规模比较小,着重强调本科课程教育,只提供很少的研究生学位,但是每所学校也有自己非常擅长并具有特色的专业可供选择。例如英属哥伦比亚大学则被誉为西海岸的明珠,有着无比漂亮的校园;安大略理工大学(UOIT)是加拿大最现代的公立大学,设施设备完全现代化。各所大学都有自己的发展特色,有着朝气蓬勃的校园文化。英属哥伦比亚大学UBC包含温哥华校区(总校区)和奥肯纳根校区,与麦吉尔大学、多伦多大学并称加拿大大学“三强”,并在经历了百余年的长足发展后,逐渐成为蜚声全球的综合研究型大学,在加拿大国内的排名中始终保持前三名之列,其学术实力多年保持在世界前35,是全球优秀的20所公立大学之一。UBC被誉为西海岸的明珠,每年都吸引许多世界一流学子前来就读,尤以科学研究见长,是世界一流的研究型大学。除了多样化的学生、全球性的远瞻眼光及杰出的研究成果外,UBC的温哥华校园还被誉为全北美最漂亮的校园。安大略理工大学安大略理工大学(UOIT)是加拿大最现代的公立大学,设施设备完全现代化。于2002年成立,主校区与杜伦学院(Durham College)共享校区。教育学院位于奥沙瓦市中心校区。该校与通用,斯巴鲁等长期合作,故优势专业以工程类为主。该校有超过8000在读学生,国际学生主要以中东,印度及中国为主。校园硬件设施先进,教师团队有着来自不同国家不同文化的教授,讲师。学习氛围浓重。特伦特大学加拿大特伦特大学(Trent University)正式建校于1964年,并于1968年被吸收为加拿大大学及学院协会的一员。特伦特大学拥有约8500名全日制学生,拥有高质量的工商管理学,经济学,数学,环境学,生物学,人类学,自然科学、社会科学、国际发展研究、计算机科学等课程,其中以法医学,法律学,心理学,环境生态学最为热门。在著名的麦克林杂志大学排行榜上,特伦特大学2018年位于加拿大本科学士类大学第3名及安大略省第1名,位于世界大学排名中心(CWUR) 世界前。阿卡迪亚大学阿卡迪亚大学成立于1838年,是加拿大历史最长的大学之一,本科教育连续七年在加拿大排名第一,综合排名总在前10名。在阿卡迪亚大学所获得的学位是被加拿大、美国等很多西方国家认可的。该校被加拿大的各种媒体如国家电台、杂志等评为加拿大最好和高质量的大学之一。 阿卡迪亚大学位于加拿大东海岸新斯科舍省沃尔夫威尔市,人口万。距离省会哈利法克斯仅100公里。圣弗朗西斯泽维尔大学圣弗朗西斯泽维尔大学 是加拿大的一所领先的公立大学,创建于1853 年,有着长久的优异学术、回馈社会和教学创新的传统。圣弗朗西斯泽维尔大学 致力提供给学生卓越的完善知识、丰富人格的高等教育。圣玛丽大学圣玛丽大学创建于1802,是加拿大第一所罗马天主教大学,坐落于加拿大哈利法克斯市南端,其商科和化学专业最为出名。圣玛丽大学至今已经有200多年的历史,是加拿大第二古老的大学,大学设有文学院、理学院、商学院、研究生院、工学部、继续教育中心、英语培训中心、职业培训中心等院系和中心。在校学生有近一万人。蒙特爱立森大学蒙特爱立森大学(Mount Allison University)始建于1839年,是一所已有180年历史的老牌公立大学/文理学院。它位于加拿大东部大西洋沿岸新布伦斯威克省的小城市——塞克威尔镇,在过去的28年里连续20次在加拿大权威杂志《麦克林》排名中次蝉联大学本科类排名第一位。
中华牌杂志是国内医学杂志中有重要影响的一类期刊,有两种主办单位的统称为中华牌,一类是中华医学会主办的系列期刊,比如中华内科杂志,另外一类是中华预防医学会主办的系
谣言:秋葵是很好的降血糖食物 我们经常看到宣称能降血糖的“降糖食物”名单,秋葵、苦瓜等等食物常出现在名单里。商家们也看准了“降糖”的商机,开发了各种“降糖食品”
1 撰稿要求1·1 文稿应具有先进性、科学性、实用性,论点明确,资料可靠,文字精炼,层次清楚,数据准确,书写工整规范,必要时应做统计学处理。论著、综述等一般不超
分子层面对生物的研究,在个体水平上主要是看单个基因的变化以及全转录本的变化(RNA-seq);在对个体的研究的基础上,开始了群体水平的研究。如果说常规的遗传学主
《中华现代临床医学杂志》投稿邮箱:投稿信箱:北京100081信箱54分箱《中华现代临床医学杂志》收 邮编:100081电子信箱: 网 址:http://www.