常用的有基因敲除技术和基因过量表达技术,这是用反向遗传学手段研究基因功能的有效手段。也有用正向遗传学手段的,即从表型出发克隆基因。新的技术有很多,但都没有很好的通用型,也没有传统的方法运用的广泛。如利用蛋白质组学,转录组学研究功能基因组。
基因芯片——“生物信息精灵”——浅谈数学、计算机在现代生命科学研究中的作用二十世纪是物理科学的世纪,而二十一世纪则是生命科学的世纪。生命科学,尤其是生物技术的迅猛发展,不仅与人类健康,农业发展以及生存环境密切相关,而且还将对其它学科的发展起到促进作用,所谓"今天的科学,明天的技术,后天的生产"。而生命科学的基础性研究是现代生物技术的源泉、科学和技术创新的关键。现代生物技术,是一门领导尖端科技的学科,正因如此,我很想知道它与数学——我得专业课,计算机等理论或技术是怎样有机的联系在一起的。基于此,我利用课余时间查阅了许多网站、书籍,并有了小小的收获。现就“基因芯片”技术,浅谈如下。一、基因芯片简介基因芯片,也叫DNA芯片,是在90年代中期发展出来的高科技产物。基因芯片大小如指甲盖一般,其基质一般是经过处理后的玻璃片。每个芯片的基面上都可划分出数万至数百万个小区。在指定的小区内,可固定大量具有特定功能、长约20个碱基序列的核酸分子(也叫分子探针)。由于被固定的分子探针在基质上形成不同的探针阵列,利用分子杂交及平行处理原理,基因芯片可对遗传物质进行分子检测,因此可用于进行基因研究、法医鉴定、疾病检测和药物筛选等。基因芯片技术具有无可比拟的高效、快速和多参量特点,是在传统的生物技术如检测、杂交、分型和DNA测序技术等方面的一次重大创新和飞跃。二、基因芯片技术生物芯片技术是于90年代初期随着人类基因组计划的顺利进行而诞生,它是通过像集成电路制作过程中半导体光刻加工那样的微缩技术,将现在生命科学研究中许多不连续的、离散的分析过程,如样品制备、化学反应和定性、定量检测等手段集成于指甲盖大小的硅芯片或玻璃芯片上,使这些分析过程连续化和微型化。也就是说将现在需要几间实验室、检验室完成的技术,制作成具有不同用途的便携式生化分析仪,使生物学分析过程全自动化,分析速度成千上万倍地提高,所需样品及化学试剂成千上万倍地减少。可以预见,在不远的将来,用它制作的微缩分析仪将广泛地应用于分子生物学、医学基础研究、临床诊断治疗、新药开发、司法鉴定、食品卫生监督、生物武器战争等领域。生物芯片技术是目前应用前景最好的DNA分析技术之一,分析对象可以是核酸、蛋白质、细胞、组织等。目前全世界用生物芯片进行疾病诊断还处于研究阶段,国外已将其用于观察癌基因及肌萎缩等一些遗传病基因的表达和突变情况。生物芯片技术还可以用于治疗,例如已开发出在4平方毫米的芯片上布满400根有药物的针,定时定量为病人进行药物注射。另外,科学家还在考虑制作定时释放胰岛素治疗糖尿病的生物芯片微泵及可以置入心脏的芯片起搏器等。生物芯片技术与组合化学相结合将开辟另一个极有价值的应用方向,即为新药研制提供超高通量筛选平台技术,这必将使新药研究开发和传统中药的成分评估获得重大突破。三、基因芯片的应用技术举例1、基因破译目前,由多国科学家参与的“人类基因组计划”,正力图在21世纪初绘制出完整的人类染色体排列图。众所周知,染色体是DNA的载体,基因是DNA上有遗传效应的片段,构成DNA的基本单位是四种碱基。由于每个人拥有30亿对碱基,破译所有DNA的碱基排列顺序无疑是一项巨型工程。与传统基因序列测定技术相比,基因芯片破译人类基因组和检测基因突变的速度要快数千倍。基因芯片的检测速度之所以这么快,主要是因为基因芯片上有成千上万个微凝胶,可进行并行检测;同时,由于微凝胶是三维立体的,它相当于提供了一个三维检测平台,能固定住蛋白质和DNA并进行分析。美国正在对基因芯片进行研究,已开发出能快速解读基因密码的“基因芯片”,使解读人类基因的速度比目前高1000倍。图1所示为一种内嵌基因芯片的基因检测装置。2、基因诊断通过使用基因芯片分析人类基因组,可找出致病的遗传基因。癌症、糖尿病等,都是遗传基因缺陷引起的疾病。医学和生物学研究人员将能在数秒钟内鉴定出最终会导致癌症等的突变基因。借助一小滴测试液,医生们能预测药物对病人的功效,可诊断出药物在治疗过程中的不良反应,还能当场鉴别出病人受到了何种细菌、病毒或其他微生物的感染。利用基因芯片分析遗传基因,将使10年后对糖尿病的确诊率达到50%以上。未来人们在体检时,由搭载基因芯片的诊断机器人对受检者取血,转瞬间体检结果便可以显示在计算机屏幕上。利用基因诊断,医疗将从千篇一律的“大众医疗”的时代,进步到依据个人遗传基因而异的“定制医疗”的时代。3、基因环保基因芯片在环保方面也大有可为。基因芯片可高效地探测到由微生物或有机物引起的污染,还能帮助研究人员找到并合成具有解毒和消化污染物功能的天然酶基因。这种对环境友好的基因一旦被发现,研究人员将把它们转入普通的细菌中,然后用这种转基因细菌清理被污染的河流或土壤。4、基因计算DNA分子类似“计算机磁盘”,拥有信息的保存、复制、改写等功能。将螺旋状的DNA的分子拉直,其长度将超过人的身高,但若把它折叠起来,又可以缩小为直径只有几微米的小球。因此,DNA分子被视为超高密度、大容量的分子存储器。基因芯片经过改进,利用不同生物状态表达不同的数字后还可用于制造生物计算机。基于基因芯片和基因算法,未来的生物信息学领域,将有望出现能与当今的计算机业硬件巨头――英特尔公司、软件巨头――微软公司相匹敌的生物信息企业。四、基因芯片的实际应用基因芯片在生命科学、医药研究、环境保护和农业等领域有极其重要的应用价值。在基因芯片的驱动下,人类正进入一个崭新的生物信息时代。1、在美国科学家第一次将一个他们称之为生物芯片的计算机芯片植入人体的细胞上,从而使人体细胞与计算机连接。这是美国科学家波利斯·鲁宾斯基(Boris Lubinsky)和他的同事黄永(译音)在3月份的美国《生物医学微设备》杂志中著文披露的。2、人体细胞外面包有一个细胞膜,该细胞膜具有使特定物质单向通过的功能。多年来,科学家们一直寻求找到用电冲击的方法,使所希望的物质进入细胞膜,但直 到目前为止,所用的方法有时成功,有时失败。而使用鲁宾斯基和黄永研究出来的 新方法,细胞膜由计算机得到一个信号,让某些物质进入到细胞中。随具体场合的 不同,这些物质可以是例如用来改变基因的遗传物质,也可以是药物或蛋白质。这样,就可以更好地使这些物质发生效力。鲁宾斯基等科学家打算研制出能对例如神经细胞和肌肉等人体组织发出指令的生物芯片,这样至少会使人所服用的药物发挥更大的效力。俄亥俄州立大学生物医学工程中心主任莫里罗·弗拉里称鲁宾斯基的这项发明是处在发展阶段早期的具有潜在作用的实验室工具。美国科学家们称,他们已经找到了一种能使人体细胞和电路进行交配的生物工程芯片,它能在医学和基因工程学方面发挥关键的作用。这种比头发还小还细的微型装置使健康人体细胞和电子芯片结合,通过电脑对芯片进行控制,科学家认为他们能够控制细胞的活动。电脑向细胞芯片发送电脉冲,激发细胞膜孔张开,并激活细胞。科学家希望能够大批量地生产这种细胞芯片,并能够把它们植入人体,取代或修正病变组织。领导这项研究的加州大学机械工程学教授鲍里斯·鲁宾斯基说:“细胞芯片还使科学家在复杂的基因治疗过程中更准确地进行控制,因为他们能够更准确地开启细胞孔。”鲁宾斯基还说:“我们在生物学领域里引入了工程学的精髓,我们完全可以在不影响周围其它细胞的情况下输入DNA、提取蛋白质以及注射药物。”该细胞芯片的出现与长期存在的一种理论有关,即一定量的电压能够穿透细胞膜。多年来,科学家一直在进行用电力轰击细胞试验的遗传研究,希望藉此引入新的疗法和基因物质。研究人员希望能最终制造出与激活不同的身体组织(从肌肉到骨骼到大脑)所需的准确的电压量相调合的细胞芯片。那样的话,将会有数以千计的细胞芯片用来治疗各种类型的疾病。3、用独创技术自行研制的中国第一片应用型基因芯片于近日在第一军医大学正式诞生。据第一军医大学有关负责人透露,该军医大研制成功的基因芯片,是中国首次应用一种创新的基因片扩增技术,率先攻克了内地同行在基因芯片研究中首先面临的快速经济地搜集数以万数基因探针难题,并巧妙运用新技术手段明显地降低成本。目前,该芯片已完成实验室工作,即将进入临床验证阶段,如果顺利,用於临床诊断的基因芯片可望不久投入批量生产。但到目前为止,全世界还没有实际用於临床应用诊断的基因芯片生产。在实验室里,将这几片比大拇指盖稍大的基因芯片,放在检测器上,与之相连的电脑屏幕上立刻出现了纵横交错的红红绿绿荧光点,出现的每个荧光点就是一个基因片断的点阵。只要取病人一滴血放在芯片检测卡上,经过分子杂交后,连上电脑就可以立刻显示出基因变化情况,并通过电脑把基因语言翻译成医生能读得懂的信息,从而对疾病做出准确的诊断。这种芯片的成功诞生,标志着疾病的诊断由细胞和组织水平推进到基因水平。它们的开发应用将在环境污染控制、动植物检疫、器官移植、产前诊断、药物筛选、药物开发等方面展示出广阔的前景。五、生命科学渐成IT公司关注焦点人类基因组工作草图绘毕的消息像打开了阿里巴巴宝藏的大门,以基因技术为核心的生命科学市场正吸引着越来越多的淘金者。近来,为这些淘金者生产“铁锨”的资讯科技(IT)公司的积极行动颇为引人注目。1、揭开基因之迷须破译大量数据人类基因组草图仅仅是读出了“生命之书”,而要真正读懂它,揭示所有基因编码所代表的信息,还必须破译浩如烟海的数据。在著名的英国桑格中心里,有关人类基因组的数据已经达到22万亿字节,是世界上首屈一指的美国国会图书馆藏书内容的两倍多。据这家中心估计,在未来两至三年内,与人类基因组有关的数据量还将上升到50万亿至100万亿字节。2、生命科学公司10%投资用于开发资讯科技为了解决处理数据所需的庞大计算能力的问题,世界上最大的12家生命科学公司目前把近10%的科研预算用于资讯科技投资,而且这个比例可能还将增长。据美国国际商业机器公司(IBM)估计,与生命科学有关的资讯科技市场将在今年达到35亿美元,到2003年达到90亿美元。3、市场潜力巨大一些著名的IT企业,已将眼光瞄准了这一潜力巨大的市场。例如,IBM已经决定投资1亿美元,用五年时间研制一种名为“蓝基因”的超级电脑。“蓝基因”的运算能力将是美国现有40台最快的超级电脑运算能力总和的40倍,它主要用于模拟人类蛋白折叠成特殊形状的过程。世界最大的个人电脑制造商美国康柏公司,也垂涎这块“肥肉”。4、康柏趁早下手培养未来客户基础已经成为生命科学领域电脑服务器主要供应商的康柏公司最近宣布,它将继续投资1亿美元,支持新兴生物技术公司,以培养未来的客户基础。其实,IT公司还远不止盯着这些近期利益。以基因研究为基础的生物经济可能在新世纪里成为新经济的重要组成部分,对此人们已经达成共识。5、行业标准制定者能享有巨大经济利益根据以往的经验,率先进入市场的公司大多能够成为行业标准的制定者,这些行业标准往往意味着巨大的经济利益。今年8月,德国狮生命科学公司的股票上市。由于投资者看中这家公司的基因次序检索系统(SRS)可能成为行业新标准,其股票价格在短短时间里迅速上涨了50%。6、政府支持基因研究IT公司进军生命科学领域,与各国政府对基因研究的支持密不可分。为了在基因组研究的下一个阶段——分析蛋白质结构的国际竞争中领先,不少国家积极采取措施,促进信息业与生物产业的结合。例如,日本不久前就组织了“官产学”大联合的“生物产业信息化研究共同体”,参加这个共同体除了制药、食品、生物、化学等与基因科学相关的企业外,还有不少电脑公司。小结:科学界公认,生物芯片技术将给下个世纪生命科学和医学研究带来一场革命。目前我国科学家正在加速研制这种可能快捷便利提取DNA,查找遗传基因特性的新技术。相信,这一现代生物与高科技联姻的成果将为二十一世纪的发展作出巨大的贡献!
我学会吃饭了~~!!!!!!!
李宝键教授在“展望21世纪的生命科学”一文中谈到基因组研究计划研究重要性时,引用《Scinence》上“第三次技术命革”中的一句话:“下一个传大时代将是基因组革命时代,它正处于初期阶段。”在当前的研究水平上,只要涉及生命体重要现象的课题,几乎离不开对基因及其作用的分析。2000年6月26日,英美两国首脑会同公私两大人基因组测序集团向世人正式宣告,人基因组的工作草图已绘制完成。科学家把这作为生命科学进入新时代的标志,即后基因组时代(post-genome era)。因此有必要对基因组及其研究内容和进展作一个了解。1基因组学及其研究内容基因组(GENOME)一词是1920年Winkles从GENes和chromosOMEs组成的,用于描述生物的全部基因和染色体组成的概念。1953年Watson和Crick发现DNA双螺旋结构,标志分子生物学的诞生,随着各学科的发展,当前生物学研究进入新的进代,在生物大分子水平上将不同的研究技术和手段有机的结合以攻克生物学难题。基因组研究可以理解为:(1)基因表达概况研究,即比较不同组织和不同发育阶段、正常状态与疾病状态,以及体外培养的细胞中基因表达模式的差异,技术包括传统的RTPCR,RNase保护试验,RNA印迹杂交,但是其不足是一次只能做一个。新的高通量表达分析方法包括微点阵(microarrary),基因表达序列分析(serial analysis of gene expression,SAGE),DNA芯片(DNA chip)等;(2)基因产物-蛋白质功能研究,包括单个基因的蛋白质体外表达方法,以及蛋白质组研究;(3)蛋白质与蛋白质相互作用的研究,利用酵母双杂交系统,单杂交系统(one-hybrid system),三杂交系统(thrdee-hybrid system)以及反向杂交系统(reverse hybrid system)等。1986年美国科学家Thomas Roderick提出了基因组学(Genomics),指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析的一门科学。因此,基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。随着1990年人类基因组计划(Human Genome Project,HGP)的实施并取得巨大成就,同时模式生物(model organisms)基因组计划也在进行,并先后完成了几个物种的序列分析,研究重心从开始揭示生命的所有遗传信息转移到从分子整体水平对功能的研究上。第一个标志是功能基因组学的产生,第二个标志是蛋白质组学(proteome)的兴起。2 结构基因组学研究内容结构基因组学(structural genomics)是基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。根据使用的标志和手段不同,作图有三种类型,即构建生物体基因组高分辨率的遗传图谱、物理图谱、转录图谱。2.1遗传图谱通过遗传重组所得到的基因在具体染色体上线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)来表示。绘制遗传连锁图的方法有很多,但是在DNA多态性技术未开发时,鉴定的连锁图很少,随着DNA多态性的开发,使得可利用的遗传标志数目迅速扩增。早期使用的多态性标志有RFLP(限制性酶切片段长度多态性)、RAPD(随机引物扩增多态性DNA)、AFLP(扩增片段长度多态性);80年代后出现的有STR(短串联重复序列,又称微卫星)DNA遗传多态性分析和90年代发展的SNP(单个核苷酸的多态性)分析。2.2物理图谱物理图谱是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序,以及遗传标志之间物理距离[碱基对(bp)或千碱基(kb)或兆碱基(Mb)的图谱。以人类基因组物理图谱为例,它包括两层含义,一是获得分布于整个基因组30 000个序列标志位点(STS,其定义是染色体定位明确且可用PCR扩增的单拷贝序列)。将获得的目的基因的cDNA克隆,进行测序,确定两端的cDNA序列,约200bp,设计合成引物,并分别利用cDNA和基因组DNA作模板扩增;比较并纯化特异带;利用STS制备放射性探针与基因组进行原位杂交,使每隔100kb就有一个标志;二是在此基础上构建覆盖每条染色体的大片段:首先是构建数百kb的YAC(酵母人工染色体),对YAC进行作图,得到重叠的YAC连续克隆系,被称为低精度物理作图,然后在几十个kb的DNA片段水平上进行,将YAC随机切割后装入粘粒的作图称为高精度物理作图.2.3转录图谱利用EST作为标记所构建的分子遗传图谱被称为转录图谱。通过从cDNA文库中随机条区的克隆进行测序所获得的部分 cDNA的5'或3'端序列称为表达序列标签(EST),一般长300~500bp左右。一般说,mRNA的3' 端非翻译区(3'-UTR)是代表每个基因的比较特异的序列,将对应于3'-UTR的EST序列进行RH定位,即可构成由基因组成的STS图。截止到1998年12月底,在美国国家生物技术信息中心(NCBI)数据库中分布的植物EST的数目总和已达几万条,所测定的人基因组的EST达180万条以上。这些EST不仅为基因组遗传图谱的构建提供了大量的分子标记,而且来自不同组织和器官的EST也为基因的功能研究提供了有价值的信息。此外,EST计划还为基因的鉴定提供了候选基因(candidantes)。其不足之处在于通过随机测序有时难以获得那些低丰度表达的基因和那些在特殊环境条件下(如生物胁迫和非生物胁迫)诱导表达的基因。因此,为了弥补EST计划的不足,必须开展基因组测序。通过分析基因组序列能够获得基因组结构的完整信息,如基因在染色体上的排列顺序,基因间的间隔区结构,启动子的结构以及内含子的分布等。3功能基因组学研究功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。目前从模式生物基因组研究中得出一些规律:模式生物基因组一般比较小,但编码基因的比例较高,重复顺序和非编码顺序较少;其G+C%比较高;内含子和外显子的结构组织比较保守,剪切位点在多种生物中一致;DNA 冗余,即重复;绝大多数的核心生物功能由相当数量的orthologous蛋白承担;Synteny连锁的同源基因在不同的基因组中有相同的连锁关系等。模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因,利用模式生物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。 此外,可利用诱变技术测定未知基因,基因组多样性以及生物信息学(Bioinformatics)的应用。4蛋白质组学研究基因是遗传信息的携带者,而全部生物功能的执行者却是蛋白质,它有自身的活动规律,因而仅仅从基因的角度来研究是远远不够的,必须研究由基因转录和翻译出蛋白质的过程,才能真正揭示生命的活动规律,由此产生了研究细胞内蛋白质组成及其活动规律的新兴学科——蛋白质组学(proteomics)。蛋白质组(proteome)是由澳大利亚Macquarie大学的Wilkins和Williams于1994首先提出,并见于1995年7月的“Electrophonesis”上,指全部基因表达的全部蛋白质及其存在方式,是一个基因、一个细胞或组织所表达的全部蛋白质成分,蛋白质组学是对不同时间和空间发挥功能的特定蛋白质群体的研究。它从蛋白质水平上探索蛋白质作用模式、功能机理、调节控制以及蛋白质群体内相互作用,为临床诊断、病理研究、药物筛选、药物开发、新陈代谢途径等提供理论依据和基础。 蛋白质组学旨在阐明生物体全部蛋白质的表达模式及功能模式,内容包括鉴定蛋白质表达、存在方式(修饰形式)、结构、功能和相互作用方式等。它不同于传统的蛋白质学科,是在生物体或其细胞的整体蛋白质水平上进行的,从一个机体或一个细胞的蛋白质整体活动来揭示生命规律。但由于蛋白质具有多样性和可变性,复杂性,低表达蛋白质难以检测等,应该明确其研究的艰难性。总体上研究可以分为两个方面:对蛋白质表达模式(或蛋白质组成)研究,对蛋白质功能模式(目前集中在蛋白质相互作用网络关系)研究。对蛋白质组研究可以提供如下信息:从基因序列预测的基因产物是否以及何时被翻译;基因产物的相对浓度;翻译后被修饰的程度等。由于蛋白质数目小于基因组中开放阅读框(ORF, open reading frame)数目,因此提出功能蛋白质组学(functional proteomics),功能蛋白质指在特定时间、特定环境和试验条件下基因组活跃表达的蛋白质,只是总蛋白质组的一部分。功能蛋白质组学研究是位于对个别蛋白质的传统蛋白质研究和以全部蛋白质为研究对象的蛋白质研究之间的层次,是细胞内与某个功能有关或某种条件下的一群蛋白质。对蛋白质组成分析鉴定,要求对蛋白质进行表征化,即分离、鉴定图谱化,包括两个步骤:蛋白质分离和鉴定。双向凝胶电泳(2-DGE)和质谱(MS)是主要的技术。近年来,有关技术和生物信息学在不断并迅速开发和发展中。蛋白质组研究技术体系包括:样品制备;双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis,2-D PAGE);蛋白质的染色;凝胶图像分析;蛋白质分析;蛋白质组数据库。其中三大关键是:双向凝胶电泳技术、质谱鉴定、计算机图像数据处理与蛋白质数据库。5与基因组学相关学科诞生随着基因组学研究的不断深入,人类有望揭示生命物质世界的各种前所未知的规律,完全揭开生命之谜,进而驾驶生命,使之为人类的社会经济服务。基因组研究和其它学科研究交叉,促进一些学科诞生,如营养基因组学(nutritional genomics),环境基因组学(environmental genomics),药物基因组学(phamarcogenomics),病理基因组学(pathogenomics),生殖基因组学(reproductive genomics),群体基因组学(population genomics)等。其中,生物信息学正成为备受关注的新型产业的支撑点。生物信息学是以生物大分子为研究,以计算机为工具,运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学。研究重点体现在基因组学和蛋白质两个方面。首先是研究遗传物质的载体DNA及其编码的大分子量物质,以计算机为工具,研究各种学科交叉的生物信息学的方法,找出其规律性,进而发展出适合它的各种软件,对逐步增长的DNA 和蛋白质的序列和结构进行收集、整理、发布、提取、加工、分析和发现。由数据库、计算机网络和应用软件三大部分组成。其关注的研究热点包括:序列对比,基因识别和DNA序列分析,蛋白质结构预测,分子进化,数据库中知识发现(Knowledge Discovery in Database, KDD)。这一领域的重大科学问题有:继续进行数据库的建立和优化;研究数据库的新理论、新技术、新软件;进行若干重要算法的比较分析;进行人类基因组的信息结构分析;从生物信息数据出发开展遗传密码起源和生物进化研究;培养生物信息专业人员,建立国家生物医学数据库和服务系统[5]。20世纪末生物学数据的大量积累将导致新的理论发现或重大科学发现。生物信息学是基于数据库与知识发现的研究,对生命科学带来革命性的变化,对医药、卫生、食品、农业等产业产生巨大的影响。邹承鲁教授在谈论21世纪的生命科学时讲到,生物学在20世纪已取得巨大的发展,数理科学广泛而又深刻地深入生物学的结果在新的高度上揭示了生命的奥妙,全面改变了生物学的面貌。生物学不仅是当前自然科学发展的热点,进入21世纪后将仍然如此。科学家称21世纪是信息时代。生物科学和信息科学结合,无疑是多个学科发展的必然结果。
李宝键教授在“展望21世纪的生命科学”一文中谈到基因组研究计划研究重要性时,引用《Scinence》上“第三次技术命革”中的一句话:“下一个传大时代将是基因组革命时代,它正处于初期阶段。”在当前的研究水平上,只要涉及生命体重要现象的课题,几乎离不开对基因及其作用的分析。2000年6月26日,英美两国首脑会同公私两大人基因组测序集团向世人正式宣告,人基因组的工作草图已绘制完成。科学家把这作为生命科学进入新时代的标志,即后基因组时代(post-genome era)。因此有必要对基因组及其研究内容和进展作一个了解。1基因组学及其研究内容基因组(GENOME)一词是1920年Winkles从GENes和chromosOMEs组成的,用于描述生物的全部基因和染色体组成的概念。1953年Watson和Crick发现DNA双螺旋结构,标志分子生物学的诞生,随着各学科的发展,当前生物学研究进入新的进代,在生物大分子水平上将不同的研究技术和手段有机的结合以攻克生物学难题。基因组研究可以理解为:(1)基因表达概况研究,即比较不同组织和不同发育阶段、正常状态与疾病状态,以及体外培养的细胞中基因表达模式的差异,技术包括传统的RTPCR,RNase保护试验,RNA印迹杂交,但是其不足是一次只能做一个。新的高通量表达分析方法包括微点阵(microarrary),基因表达序列分析(serial analysis of gene expression,SAGE),DNA芯片(DNA chip)等;(2)基因产物-蛋白质功能研究,包括单个基因的蛋白质体外表达方法,以及蛋白质组研究;(3)蛋白质与蛋白质相互作用的研究,利用酵母双杂交系统,单杂交系统(one-hybrid system),三杂交系统(thrdee-hybrid system)以及反向杂交系统(reverse hybrid system)等。1986年美国科学家Thomas Roderick提出了基因组学(Genomics),指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析的一门科学。因此,基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。随着1990年人类基因组计划(Human Genome Project,HGP)的实施并取得巨大成就,同时模式生物(model organisms)基因组计划也在进行,并先后完成了几个物种的序列分析,研究重心从开始揭示生命的所有遗传信息转移到从分子整体水平对功能的研究上。第一个标志是功能基因组学的产生,第二个标志是蛋白质组学(proteome)的兴起。2 结构基因组学研究内容结构基因组学(structural genomics)是基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。根据使用的标志和手段不同,作图有三种类型,即构建生物体基因组高分辨率的遗传图谱、物理图谱、转录图谱。2.1遗传图谱通过遗传重组所得到的基因在具体染色体上线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)来表示。绘制遗传连锁图的方法有很多,但是在DNA多态性技术未开发时,鉴定的连锁图很少,随着DNA多态性的开发,使得可利用的遗传标志数目迅速扩增。早期使用的多态性标志有RFLP(限制性酶切片段长度多态性)、RAPD(随机引物扩增多态性DNA)、AFLP(扩增片段长度多态性);80年代后出现的有STR(短串联重复序列,又称微卫星)DNA遗传多态性分析和90年代发展的SNP(单个核苷酸的多态性)分析。2.2物理图谱物理图谱是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序,以及遗传标志之间物理距离[碱基对(bp)或千碱基(kb)或兆碱基(Mb)的图谱。以人类基因组物理图谱为例,它包括两层含义,一是获得分布于整个基因组30 000个序列标志位点(STS,其定义是染色体定位明确且可用PCR扩增的单拷贝序列)。将获得的目的基因的cDNA克隆,进行测序,确定两端的cDNA序列,约200bp,设计合成引物,并分别利用cDNA和基因组DNA作模板扩增;比较并纯化特异带;利用STS制备放射性探针与基因组进行原位杂交,使每隔100kb就有一个标志;二是在此基础上构建覆盖每条染色体的大片段:首先是构建数百kb的YAC(酵母人工染色体),对YAC进行作图,得到重叠的YAC连续克隆系,被称为低精度物理作图,然后在几十个kb的DNA片段水平上进行,将YAC随机切割后装入粘粒的作图称为高精度物理作图.2.3转录图谱利用EST作为标记所构建的分子遗传图谱被称为转录图谱。通过从cDNA文库中随机条区的克隆进行测序所获得的部分 cDNA的5'或3'端序列称为表达序列标签(EST),一般长300~500bp左右。一般说,mRNA的3' 端非翻译区(3'-UTR)是代表每个基因的比较特异的序列,将对应于3'-UTR的EST序列进行RH定位,即可构成由基因组成的STS图。截止到1998年12月底,在美国国家生物技术信息中心(NCBI)数据库中分布的植物EST的数目总和已达几万条,所测定的人基因组的EST达180万条以上。这些EST不仅为基因组遗传图谱的构建提供了大量的分子标记,而且来自不同组织和器官的EST也为基因的功能研究提供了有价值的信息。此外,EST计划还为基因的鉴定提供了候选基因(candidantes)。其不足之处在于通过随机测序有时难以获得那些低丰度表达的基因和那些在特殊环境条件下(如生物胁迫和非生物胁迫)诱导表达的基因。因此,为了弥补EST计划的不足,必须开展基因组测序。通过分析基因组序列能够获得基因组结构的完整信息,如基因在染色体上的排列顺序,基因间的间隔区结构,启动子的结构以及内含子的分布等。3功能基因组学研究功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。目前从模式生物基因组研究中得出一些规律:模式生物基因组一般比较小,但编码基因的比例较高,重复顺序和非编码顺序较少;其G+C%比较高;内含子和外显子的结构组织比较保守,剪切位点在多种生物中一致;DNA 冗余,即重复;绝大多数的核心生物功能由相当数量的orthologous蛋白承担;Synteny连锁的同源基因在不同的基因组中有相同的连锁关系等。模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因,利用模式生物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。 此外,可利用诱变技术测定未知基因,基因组多样性以及生物信息学(Bioinformatics)的应用。4蛋白质组学研究基因是遗传信息的携带者,而全部生物功能的执行者却是蛋白质,它有自身的活动规律,因而仅仅从基因的角度来研究是远远不够的,必须研究由基因转录和翻译出蛋白质的过程,才能真正揭示生命的活动规律,由此产生了研究细胞内蛋白质组成及其活动规律的新兴学科——蛋白质组学(proteomics)。蛋白质组(proteome)是由澳大利亚Macquarie大学的Wilkins和Williams于1994首先提出,并见于1995年7月的“Electrophonesis”上,指全部基因表达的全部蛋白质及其存在方式,是一个基因、一个细胞或组织所表达的全部蛋白质成分,蛋白质组学是对不同时间和空间发挥功能的特定蛋白质群体的研究。它从蛋白质水平上探索蛋白质作用模式、功能机理、调节控制以及蛋白质群体内相互作用,为临床诊断、病理研究、药物筛选、药物开发、新陈代谢途径等提供理论依据和基础。 蛋白质组学旨在阐明生物体全部蛋白质的表达模式及功能模式,内容包括鉴定蛋白质表达、存在方式(修饰形式)、结构、功能和相互作用方式等。它不同于传统的蛋白质学科,是在生物体或其细胞的整体蛋白质水平上进行的,从一个机体或一个细胞的蛋白质整体活动来揭示生命规律。但由于蛋白质具有多样性和可变性,复杂性,低表达蛋白质难以检测等,应该明确其研究的艰难性。总体上研究可以分为两个方面:对蛋白质表达模式(或蛋白质组成)研究,对蛋白质功能模式(目前集中在蛋白质相互作用网络关系)研究。对蛋白质组研究可以提供如下信息:从基因序列预测的基因产物是否以及何时被翻译;基因产物的相对浓度;翻译后被修饰的程度等。由于蛋白质数目小于基因组中开放阅读框(ORF, open reading frame)数目,因此提出功能蛋白质组学(functional proteomics),功能蛋白质指在特定时间、特定环境和试验条件下基因组活跃表达的蛋白质,只是总蛋白质组的一部分。功能蛋白质组学研究是位于对个别蛋白质的传统蛋白质研究和以全部蛋白质为研究对象的蛋白质研究之间的层次,是细胞内与某个功能有关或某种条件下的一群蛋白质。对蛋白质组成分析鉴定,要求对蛋白质进行表征化,即分离、鉴定图谱化,包括两个步骤:蛋白质分离和鉴定。双向凝胶电泳(2-DGE)和质谱(MS)是主要的技术。近年来,有关技术和生物信息学在不断并迅速开发和发展中。蛋白质组研究技术体系包括:样品制备;双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis,2-D PAGE);蛋白质的染色;凝胶图像分析;蛋白质分析;蛋白质组数据库。其中三大关键是:双向凝胶电泳技术、质谱鉴定、计算机图像数据处理与蛋白质数据库。5与基因组学相关学科诞生随着基因组学研究的不断深入,人类有望揭示生命物质世界的各种前所未知的规律,完全揭开生命之谜,进而驾驶生命,使之为人类的社会经济服务。基因组研究和其它学科研究交叉,促进一些学科诞生,如营养基因组学(nutritional genomics),环境基因组学(environmental genomics),药物基因组学(phamarcogenomics),病理基因组学(pathogenomics),生殖基因组学(reproductive genomics),群体基因组学(population genomics)等。其中,生物信息学正成为备受关注的新型产业的支撑点。生物信息学是以生物大分子为研究,以计算机为工具,运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学。研究重点体现在基因组学和蛋白质两个方面。首先是研究遗传物质的载体DNA及其编码的大分子量物质,以计算机为工具,研究各种学科交叉的生物信息学的方法,找出其规律性,进而发展出适合它的各种软件,对逐步增长的DNA 和蛋白质的序列和结构进行收集、整理、发布、提取、加工、分析和发现。由数据库、计算机网络和应用软件三大部分组成。其关注的研究热点包括:序列对比,基因识别和DNA序列分析,蛋白质结构预测,分子进化,数据库中知识发现(Knowledge Discovery in Database, KDD)。这一领域的重大科学问题有:继续进行数据库的建立和优化;研究数据库的新理论、新技术、新软件;进行若干重要算法的比较分析;进行人类基因组的信息结构分析;从生物信息数据出发开展遗传密码起源和生物进化研究;培养生物信息专业人员,建立国家生物医学数据库和服务系统[5]。20世纪末生物学数据的大量积累将导致新的理论发现或重大科学发现。生物信息学是基于数据库与知识发现的研究,对生命科学带来革命性的变化,对医药、卫生、食品、农业等产业产生巨大的影响。邹承鲁教授在谈论21世纪的生命科学时讲到,生物学在20世纪已取得巨大的发展,数理科学广泛而又深刻地深入生物学的结果在新的高度上揭示了生命的奥妙,全面改变了生物学的面貌。生物学不仅是当前自然科学发展的热点,进入21世纪后将仍然如此。科学家称21世纪是信息时代。生物科学和信息科学结合,无疑是多个学科发展的必然结果。
植物细胞工程技术以及应用论文
1 植物细胞工程基础研究
植物细胞工程是建立在工程技术与现代生物科学基础上的科学技术。它的发展依赖于植物学、分子生物学、植物生理学、遗传学、环境工程学、植物营养学等学科共同的发展和进步的,可为研究生物科学提供非常重要的技术。植物发育的生物学是当代植物科学研究的主要内容。离体培养的器官与培养体细胞胚及调控这种步骤已经建立了良好的实验体系,极大地将植物生物学的内容丰富了,而且还加速了发展。植物的薄层细胞培养已经成为了在离体条件下研究生理生化、植株再生、遗传转化的关键技术。并且应用离体培养的技术来探究花器官的发育,已经在多种植物上实现了开花和结实。原生质体培养为研究单细胞提供了较为良好的技术体系,已应用在植物激素的作用机理、植物细胞的分裂、细胞壁生物学、基因表达、物质跨膜运输等多个研究领域。
2 植物细胞工程技术及其应用
2. 1 加倍单倍体技术及应用
利用植物的组织来培养单倍体的植物材料从而获得单倍体植物,然后再通过自然方法或者人工加倍的方法从而获得双倍体植株的技术,被称为加倍单倍体技术。在这种技术中以使用花药和花粉来进行培养的应用最为广泛。利用这种技术来进行花药和花粉培养获得植株,目前已经在 250 多种植物上实验成功。目前,我国在培养花药和单倍体育种这两方面总体已经处于世界的前列,由多名研究者研制的 N6 培养基已经被大量应用在禾本科植物的花药和花粉培养上,现已被当做是国内外花培使用的通用培养基。而且利用花培技术,我国在多种农作物上都培养出了许多新的品种,例如水稻的中花系列的品种、小麦中的京花系列的品种、油菜中的华油一号等这些已经培育成功的品种的'推广,现已在社会和经济方面都取得了很好的效益。
在遗传上面,我们采用花培技术已获得染色体代的换系和附加系的方法,现在也被大量应用在小麦、大麦和一些茄科植物的身上,这种方法对远缘杂交育种的效率有着极大的提高。
植物存在的一种自然现象就是雌核发育。雌核发育就在离体的条件下通过培养一些没有受精过的子房和胚珠以产生单倍体植株,或者是在活体的条件下用不同种类的花粉或者是被物理方法处理过花粉授予其中,以诱导雌核的发育。目前这种培育方法已经在不下 10 种的植物上获得了成功。在离体条件下,诱导孤雌生殖来获得加倍单倍体的这一技术发展的时间很短,不过现在已经开始使用在构建遗传分析、作物的改良与转基因的受体材料。
2. 2 原生质体培养和体细胞杂交
植物细胞工程的核心技术是原生质体培养和体细胞杂交。
为了不出现植物远缘杂交不亲和性,新的种质资源不断创新,为了实现植物遗传转化和进行细胞学的基础研究提供了重要的科学研究基础。粮食作物、蔬菜、果树、花卉、林木等是获得的原生质体再生植株。农作物和经济作物主要是以原生质体培养,从一年生向多年生、从草本向木本、从高等向低等是近年来的植物发展趋势。原生质体培养、体细胞杂交、体细胞杂质种子评价和利用等是我国大量研究方面。世界前列的是第一次获得的原生质体植株种类数量,先进的成果适用主要是在原生质体培养体系的建立和完善、体细胞杂质种子鉴定、新种质的创制等方面。在植物细胞生理和遗传学、基因组学、蛋白质组学研究中的应用主要是以原生质体培养的技术。
2. 3 加强植物细胞工程基础研究
基础科学的进步与发展是植物细胞工程的发展主要平台。转基因植物、植物生物反应器的研究和应用的推进方面是加强研究基础植物代谢工程、植物细胞工程与植物基因工程的快速有机整合,结合分子标记辅助育种技术等。
3 结语
现代生物技术的发展是需要植物细胞工程的研究与应用来推动的。植物细胞工程作为一个很独立的学科和技术研究,为现代农业化高效率、优质性、可持续发展性做出了重大贡献。生命科学技术和工程技术的进步有力推动了植物细胞技术的发展,也大大有效地推进了现代生命科学技术的进一步发展。
加大对植物细胞工程的基础研究创新 ,将为植物细胞工程的进步提供更为广阔的发展平台,为社会主义现代农业科学技术的发展做出更大的贡献。
2022年1月19日,广西农科院经济作物所严华兵团队联合菲沙基因在园艺领域权威期刊 Horticulture Research (IF=6.79)上发表了题为“ 《Chromosomal-level genome and multi-omics dataset of Pueraria lobata var. thomsonii provide new insights into legume family and the isoflavone and puerarin biosynthesis pathways》 ”的研究论文,该研究通过PacBio和Hi-C测序 构建了粉葛高质量的染色体水平基因组,解析了粉葛的基因组特征,随后利用包括基因组、转录组、代谢组在内的多组学技术深入解析了粉葛重要次生代谢物的生物合成机制 ,从而为粉葛的资源利用、遗传育种等研究提供了新见解。
鉴于粉葛杂合度较高,研究者选用了PacBio和Hi-C测序,构建的粉葛基因组大小为 1.38Gb , Contig N50=598 kb ,并将99.3%的序列锚定到 11 条染色体上,BUSCO评估基因组完整性为 92.9% 。通过注释,共获得了 45,270 个蛋白编码基因,其中94.4%的基因可以得到功能注释,基因组中重复序列占比为 62.7% 。
将粉葛与16个近缘物种(包含5个豆科植物)进行比较基因组分析,结果表明:
通过对高葛根素ZG-19和低葛根素ZG-39进行转录组和代谢组分析,研究者检测到了614种225种 差异代谢物(DMs) ,1814个 差异表达基因(DEG) ,DMs和DEG的丰富功能类别重叠,这说明 它们都是与类黄酮、异黄酮和ABC转运相关的基因或代谢物 。
进一步分析 代谢物与基因表达的相关系数 ,结果表明代谢物和基因对在样本中高度相关,60%的显著相关性涉及上调的代谢物和下调或不变的基因,在15%的显著相关性中, 代谢物和基因表达的变化方向相同 。
此外,研究者在异黄酮生物合成途径中发现了大量的DMs和DEG。这充分解析了粉葛中异黄酮的生物合成途径。
通过 同源基因搜索 ,研究者发现编码葛根素合成途径中关键酶的9个基因家族在粉葛中都有所 扩张 ;通过分析糖基转移酶家族中催化糖基化修饰的基因,共鉴定出104个GT基因,有13个基因与8-C-葡萄糖基转移酶(8-C-GT)同源,其中6个与先前研究的催化大豆苷元C-糖基化为葛根素的PIUGT43基因同源。
编码大豆异黄酮合酶(IFS)的基因(CHR11G3854.1)催化着葛根素合成的中间代谢物大豆苷元的合成, 被鉴定为与葛根素的合成途径高度相关 。总之,上述分析初步解析了粉葛中葛根素的生物合成途径。
综上,该研究通过构建高质量的粉葛基因组解析了粉葛基因组的进化特征;通过多组学分析深入解析了粉葛中重要次生代谢物异黄酮、葛根素等生物合成途径,从而为粉葛的资源利用、遗传育种等研究提供了新见解。
广西农业科学院经济作物研究所严华兵研究员团队近些年与华中农业大学、菲沙基因、上海大学、广西中医药大学、广西医科大学等单位持续开展联合攻关,在全球葛根资源收集与鉴定评价、葛属资源分类、葛根基因组与分子生物学、粉葛和野葛品种选育、健康种苗生产、高产高效栽培等方面取得了一系列的成果。团队到目前为止,已广泛收集全球葛属种质资源419份,包括野葛、粉葛、葛麻姆、大花葛、泰葛、苦葛、红葛、须弥葛、食用葛等;通过开发葛SSR分子标记,构建了广西葛核心种质库;通过广泛靶向代谢组解析葛属葛种野葛、粉葛和葛麻姆等3个变种块根中影响食用品质和药用品质的代谢差异;结合表型鉴定通过叶绿体基因组研究,揭示了葛及其近缘种之间的系统发育关系;挖掘了调控葛根素合成代谢相关的结构基因和转录因子,并正在开展相关基因功能验证工作;选育出适合开发葛花茶、高葛根素粉葛、无渣粉葛、药用野葛等系列葛根新品种,并逐步建立配套种苗繁育和高效栽培技术。以上研究相关成果先后发表在Horticulture Research、Frontier in Plant Science、Molecules、植物遗传资源学报、植物生理学报等期刊,相关研究先后得到了国家自然科学基金委、广西科技厅等部门项目的资助。粉葛基因组文章的发表将进一步推动全世界葛属植物的进化与分类研究,促进我国葛根产业的科技进步,发挥基础研究源头供给作用以进一步推动广西地方特色优势粉葛产业的高质量发展。
说到葛根大家一定不陌生,野葛在美国开始被用作生态治理后来泛滥成灾被列为入侵生物,泰国葛根产业及其健康功效风靡全球。最早关于葛的文献记载出现在周代,《神农本草经》记载“(葛根)主消渴,身大热,呕吐,诸痹,起阴气,解诸毒”。葛根具有解肌退热,生津止渴,透疹,升阳止泻,通经活络,解酒毒等。现代药理研究表明,葛根在改善心血管系统、抗氧化、降血糖、解热、抗炎、解酒护肝、神经保护、抗骨质疏松和雌激素样作用等方面具有较好的药理活性。
粉葛为豆科葛属植物,为药食同源两用植物,素有“亚洲人参”、“南葛北参”的美誉,广泛种植在广西、广东、江西、湖南、湖北等地,其中广西是粉葛主要种植产区,种植面积全国第一!其中梧州藤县和平镇是中国著名的“葛根之乡”,藤县葛色天香和平粉葛产业(核心)示范区被评为广西现代特色农业(核心)四星级示范区。当前广西粉葛产业发展仍然面临很多亟待解决的问题,粉葛基因组的解析将为粉葛产业高质量发展提供科技支撑。
转自:
转自:
基因组(Denovo sequencing),即基因组从头测序,指在不依赖参考基因组的情况下绘制该物种的全基因组序列图谱,从而获取该物种的全部遗传信息。高连续性基因组的获得,对后续功能基因定位,结构变异检测具有重要的意义。结合近几年的文章我们不难发现,基因组研究主要以下面几种方向为出发点开展: 1)大型/多倍体/超复杂物种基因组破译,技术创新改革; 2)0 Gap基因组/单体型基因组构建,序列优化打磨; 3)未知基因组破译联合多组学分析,经济价值挖掘; 4)品种泛基因组构建解析功能变异,覆盖多样表型; 5)科属水平谱系基因组构建与分析,探索进化功能; 6)多种基因组联合多组学比对剖析,解析性状特征。 ... ...
前5种好理解,第6种方向能做什么呢?其实我们想要了解一个物种,往往单一基因组难以完整解析,例如
等等棘手但是却又热门的研究话题。
接下来我将通过百迈客最近三篇动植物上的成功案例带大家看看,如何通过数个材料基因组结合多组学的手段解析性状特征。
合作单位:中科院南海海洋研究所 发表期刊:Science Advances 影响因子:14.131 发表时间:2021.08 研究材料:Denovo:雌性与雄性草海龙(Phyllopteryx taeniolatus);雌性与雄性绿海龙(Syngnathoides biaculeatus) 个体重测序:2只雄性草海龙 RNA-seq:脑、眼、鳃、肝、肠、肌肉、鳍、皮肤和附叶 测序方案
Denovo:雌性、雄性草海龙与雄性绿海龙PacBio平台;雌性绿海龙Nanopore平台,雌性、雄性草海龙与雄性绿海龙进行Hi-C测序。三代测序技术对应测序数据如下表所示: 个体重测序:~30X PacBio
草海龙最终组装大小为~659 Mb(♂)与 ~663Mb(♀), contig N50分别为10.0 Mb与12.1 Mb。绿海龙分别组装~637 Mb(♂)与~648 Mb(♀),contig N50分别为18.0Mb与21.0 Mb。4个基因组BUSCO评估显示范围在94.00- 94.40%。并分别在草海龙和绿海龙中确定了31个和33个发生 扩张的基因家族 。通过19条鳍鱼类全基因组数据集进行 系统发育分析 ,明确草海龙与绿海龙在系统发育地位上属于海龙亚科(Syngnathinae)的姊妹群,并于 27.3 百万年前 左右发生分化。
草海龙的头部、颈部、腹部、背部和尾部区域有叶子状的附属物,可以与周围环境相融合,使草海龙以完美拟态隐匿于海草床中。这些结构是该物种的一种适应性进化产物,主要由骨基质和富含胶原纤维的结缔组织组成。
通过转录组学分析,发现其表达基因(如msx,dlx,fgf)主要从皮肤和鳍等器官募集而来,暗示了相关基因对新器官产生和维持的重要作用。而“附叶”与鳍相比缺乏肢体发育特异性的hox基因。草海龙的附叶在捕食者的袭击中经常受到损伤,为了研究相关机制,作者通过转录组分析研究发现在其附叶中炎症和损伤修复相关基因表现出高表达水平, 说明这些基因可能与其附叶的快速愈合和再生能力相关 。 同时草海龙特异性扩张的MHC I基因也在附叶中显著高表达,能为其提供额外的免疫保护。
通过雄性和雌性叶海龙Illumina reads正反比对雄性和雌性的全基因组序列,来确定叶海龙中假定的性染色体和性别基因座。结果显示 Chr4上的一个~47-kb区域仅在雄性中存在 , 且reads覆盖度为Chr4平均值的一半,该片段经Hi-C互作分析结果支持。
注释及比较分析发现草海龙和绿海龙的性别决定基因均为amhr2的雄性特异性拷贝amhr2y,但两者的基因座不相同。系统发育分析表明,amhr2y起源于它们最近共同祖先的重复事件,而黄鲈amhr2y是从其谱系中的独立重复事件进化而来。研究发现amhr2y比amhr2受到的选择压力更强,其整体结构与amhr2相似。
草海龙与其他海龙科物种一样具有缺乏牙齿的管状吻。 研究表明,大部分富含P/Q的分泌型钙结合磷蛋白(SCPP)基因的缺失可能是导致syngnathids无牙的原因。 为了验证海龙科中因 假基因化丧失功能 这一点,作者使用CRISPR-Cas9技术构建了两个斑马鱼scpp5突变系,发现scpp5-/-突变体斑马鱼牙齿的数量减少且颌骨中存在用于附着牙齿的凹坑。
研究结论 该研究通过雌雄性海龙基因组的破译,结合 重测序分析、转录分析、比较基因组分析 等研究揭示了海龙科物种性别决定基因的产生和演化历程,为海洋鱼类的环境适应性进化研究提供了重要理论依据。
合作单位:浙江大学 发表期刊:Plant Biotechnology Journal 影响因子:9.801 发表时间:2021.08 研究材料:Denovo:Brassica juncea菜用芥菜T84-66、油用芥菜AU213; 个体重测序:12个油菜品种; 遗传进化:183份油用与菜用芥菜; 测序方案: Denovo:菜用芥菜分别146 Gb Illumina(~150X)+ 251 Gb PacBio( 200X)+Hi-C( 200X );油用芥菜147 Gb Illumina(~150X)+205 Gb PacBio( 200X)+Hi-C( 200X ) 个体重测序:~20X Nanopore 遗传进化与GWAS:~10X illumina
研究内容
在着丝粒附近的异染色质状态中具有相对较低的基因表达模式。
系统地鉴定了T84-66 和AU213的A和B亚基因组中的全基因组单核苷酸多态性(SNP)、插入/缺失(InDels)和存在/缺失变异(PAV)。在T84-66和AU213之间的A和B亚基因组中鉴定了24,768个PAV(> 100 bp), 其中3,634个PAV导致6,425个基因的变异。随机选择了几个PAV并使用PCR来确保这些PAV的保真度。其中一些基因组变异位于基因区域内,预计会影响T84-66和AU213作物中涉及生物和非生物胁迫的基因功能。
为了破译芥菜基因组菜用和油用品种之间SVs衍生的功能差异,作者基于Nanopore重测序技术,系统比较了菜用和油用芥菜群体基因组结构变异(structural variation,SV) ,挖掘到包括1, 354个高可信度的插入、缺失、重复、倒位、易位等变异。其中两个重要的基因位点TGA1和HSP20在ChrA06和ChrB08,可能与B.juncea基因组的菜用与油用品种之间对生物和生物应力的反应的自然变异有关。 这些变异研究为菜用芥和油用芥两个典型分化群体的演化提供了基因组变异基础。
使用T84-66作为参考基因组,对183份油用与菜用芥菜进行进化关系分析,并通过SGS-GWAS(scored genomic SNPs based GWAS)基因定位,在A02和A09中发现了两个参与控制芥菜硫苷(GSL)积累变异的关键遗传位,并首次发现A09中的MYB28与B. jucnea中GSL的积累有关。经过进一步研究并同过ONT验证发现,MYB28基因的拷贝数变异(copy number variations,CNVs)是导致芥菜种群中硫苷积累差异的原因,该基因的拷贝数变异在低硫苷芥菜群体中普遍存在。
研究小结 该研究将为多倍基因组进化研究和精确基因组选择研究提供重要研究信息,对芥菜风味品质和油脂质量的分子遗传改良具有重要科学和应用价值。
合作单位:华中农业大学 发表期刊:Molecular Biology And Evolution 影响因子:16.241 发表时间:2021.05 研究材料:基因组、Hi-C:圆叶棉G. rotundifolium(K2)、亚洲棉G. arboreum(A2)、雷蒙德氏棉G. raimondii(D2)新鲜叶片
测序方案 denovo:illumina K2、A2和D5分别108×, 118×, 132×;Nanopore K2、A2和D5分别124×, 131×, 167× Hi-C挂载:6碱基酶HindⅢ;K2、A2和D5分辨率分别为20kb、20kb、10kb Hi-C互作:4碱基酶DpnⅡ;分辨率20 Kb, 50 Kb, 100 Kb
研究内容
利用Nanopore测序技术组装了圆叶棉( K2 )基因组,组装大小为2.44Gb(contigN50 = 5.33 Mb);提升了亚洲棉( A2 )和雷蒙德氏棉( D5 )的基因组,组装大小分别为1.62 Gb (contigN50 = 11.69 Mb)和0.75 Gb(contigN50 =17.04 Mb )。Hi-C挂载率均超过99%,BUSCO结果分别为92.5%, 93.9%,及95.4%。
重复序列注释表明,相对于D5,K2和A2中棉种 特异的反转录转座子扩增是造成这三个基因组大小三倍变化的原因,特别是Gypsy和DIRS类型。全长转座子插入时间分析表明K2基因组中转座子插入最为古老,A2基因组有更多新的转座子。
比较基因组分析表明,A2和K2基因组在Chr01与Chr02染色体间存在一个大的易位;K2和D5基因组在Chr13与Chr05染色体间存在一个大的易位。三个棉种在57-71百万年前存在一次共同的全基因组复制事件,并在5.1-5.4百万年前发生物种分化,基因共线性分析表明每个基因组大约有15%特异的基因家族。
通过HiC染色质互作数据揭示三个棉种染色体大小的规律,A2与K2比D5多了约7000个基因,三个基因组中17%的共线性同源基因表现为A/B区室的染色质状态改变,这与活跃的转座子扩增相关。
K2与A2及与D5相比更多的倾向于A向B的转化。K2和A2中有更多的基因处于A compartment,D5中有更多的基因处于B compartment。
大约60%的拓扑结构域(TAD)在三个基因组中发生了重新组织,K2基因组中有更多特异的TAD。基于边界TE覆盖度,边界TE表达以及TE插入时间分析,发现K2不保守的TAD边界存在特异的和较新的转座子(物种分化后爆发的TE)插入。这些结果表明最近在K2和A2基因组中表达的TEs的扩增可能有助于在三个物种分化后形成谱系特异性TAD边界。基于这些结果,作者提出了三个棉种分化过程中,基因组扩张-转座子扩增介导的A/B区室转换和TAD重组的进化模型。
研究小结
本次研究首次公布了棉属中二倍体圆叶棉基因组,并对亚洲棉和雷蒙德氏棉基因组进行了升级,解析了转座子活动驱动的基因组大小进化特征,从转座子扩增和染色质空间结构角度为棉花物种进化提供新的见解,为植物中转座子活动介导的转录调控进化研究提供参考。
动植物基因组De novo测序分析也叫从头测序分析,指不依赖于任何参考序列信息就可对某动植物进行测序分析,使用最新的生物信息学方法进行序列拼接获得某物种的基因组序列图谱,并进行基因组结构注释、功能注释、比较基因组学分析等一系列的后续分析。三代测序技术(以PacBio和Nanopore为代表)具有读长长的特点,自2015年开始在动植物基因组De novo中初露锋芒,已延用至今。该类型测序分析结果可以广泛应用于农林鱼牧医药及海洋等各个方面的研究。图1 不同测序技术读长,准确性及基因组连续性评估三代测序技术原理PacBio测序原理采用边合成边测序的方式,以其中一条DNA链为模板,通过DNA聚合酶合成另外一条链,进一步将荧光信号转变为碱基信号。同时PacBio已升级了CCS测序模式以获得长读长的高保真(HiFi)15 kb reads,由此提升基因组组装的准确性。图2 三代PacBio测序原理Nanopore测序原理当单链DNA分子穿过纳米孔时,相对于每个核苷酸,都会获得不同的电流信号。记录每个孔的离子电流变化,并基于马尔可夫模型或递归神经网络的方法将其转换为碱基序列。除此之外,Ultra-long reads (ULRs) 是ONT平台的另一重要特征,并具有促进大型基因组组装的潜力。信息分析内容De novo研究 研究内容基因组组装 多软件组装、组装结果评估基因预测与注释 编码基因预测;重复序列注释和转座元件分类;非编码RNA注释;假基因注释等Hi-C辅助基因组组装 有效数据评估;Contig聚类、排序及定向分析;挂载结果评估 生物学问题解析 比较基因组学研究基因家族聚类;系统发育树的构建;基因家族扩张与收缩分析;物种分化时间推算;LTR形成时间估算;全基因组复制事件;选择压力分析特定生物学问题剖析 结合组学研究方法,深入对某物种生物学问题进行解析草莓基因家族聚类分析薏苡全基因组复制事件分析开心果系统进化树与基因家族收缩扩张分析陆地棉亚基因组共线性分析技术服务流程样品寄送建库测序数据分析出具报告售后答疑产品优势公司成立于2009年,深耕基因组测序领域11年之久,长久以来致力于成为精准的基因组组装专家;拥有世界在最主流的三代测序平台(PacBio测序全平台和Nanopore测序全平台),具有丰厚的双平台组装及上万种物种基因组组装经验。Hi-C染色质构象捕获技术文库有效数据比例高,挂载效率高达99%,多倍体物种研究经验丰富,与三代基因组组装相结合,获得染色体水平基因组的同事进一步提升基因组组装质量。拥有自主研发的领先的基因组测序和分析技术,目前已经获得23项发明专利,超过150多项核心软件著作权。项目经验示例合作文章案例案例1以更新的亚洲棉A基因组为基础的243份二倍体棉的重要农艺性状的研究RESEQUENCING OF 243 DIPLOID COTTON ACCESSIONS BASED ON AN UPDATED A GENOME IDENTIFIES THE GENETIC BASIS OF KEY AGRONOMIC TRAITS期刊:Nature Genetics影响因子:27.125发表单位:中国农业科学院棉花研究所、北京百迈客生物科技有限公司等发表年份:2018年5月研究背景:棉花是研究植物多倍化的有价值的资源。亚洲棉(Gossypium arboreum)和草棉(Gossypium herbaceum)的祖先是现代栽培异源四倍体棉花A亚基因组的供体。 本研究中,利用了三代PacBio和Hi-C技术,重新组装了高质量的亚洲棉基因组,分析了243份二倍体棉花种质的群体结构和基因组分化趋势,同时确定了一些有助于棉花皮棉产量遗传改良的候选基因位点。研究结果:1、亚洲棉三代基因组组装:利用三代测序和Hi-C相结合的方法进行亚洲棉基因组组装。共计获得了142.54 Gb ,组装1.71 Gb亚洲棉基因组,Contig N50=1.1 Mb,最长的Contig为12.37 Mb。利用Hi-C技术将组装的1573 Mb的数据定位到13条染色体上,与已经发表的基因组相比,当Hi-C数据比对到更新的基因组后,对角线外的不一致性明显减少(图1 a-b)图1 HI-C数据在两版亚洲棉基因组上的比对2、二倍体棉花群体遗传进化分析:对230份亚洲棉和13份草棉重测序,进行基因组比对、系统发育树、群体结构分析、PCA、LD和选择性清除分析得出亚洲棉和草棉(A)与雷蒙德氏棉同时进行了分化;亚洲棉起源于中国南部,随后被引入长江和黄河地区,大多数具有驯化相关特性的种质都经历了地理隔离(图2)。图2 二倍体棉群体进化和群体结构分析3、亚洲棉的全基因组关联分析(GWAS):对来自不同环境下的11个重要性状进行全基因组关联分析,鉴定了亚洲棉11个重要农艺性状的98个显著关联位点,GaKASIII的非同义替换(半胱氨酸/精氨酸替换)使得棉籽中的脂肪酸组成(C16:0和C16:1)发生了变化;发现棉花枯萎病抗性与GaGSTF9基因的表达激活相关。选择了亚洲棉种质中的158份有绒毛和57份无绒毛材料进行GWAS关联分析,发现与毛状体和纤维发育有关信息(图3)。图3 二倍体棉群体进化和群体结构分析研究结论:利用三代测序+Hi-C技术完成了亚洲棉基因组的重新组装,将基因组组装指标从72 Kb提升到1.1 Mb,为亚洲棉后续的群体遗传学等相关研究奠定了基础;通过群体遗传进化等相关分析,发现亚洲棉和草棉(A型)与雷蒙德氏棉(D型)同时进行了分化,并证明了亚洲棉起源于中国南部,随后被引入长江和黄河地区;整合GWAS与QTL等分析方法,对亚洲棉脂肪酸含量,抗病性及棉绒生长发育相关基因进行定位,并进行相关功能验证,促进了亚洲棉复杂农艺性状的改良。案例2、二倍体、野生和栽培四倍体花生比较基因组分析揭示亚基因组不对称进化和改良COMPARISON OF ARACHIS MONTICOLA WITH DIPLOID AND CULTIVATED TETRAPLOID GENOMES REVEALS ASYMMETRIC SUBGENOME EVOLUTION AND IMPROVEMENT OF PEANUT期刊:Advanced Science影响因子:15.804发表单位:河南农业大学、北京百迈客生物科技有限公司等发表年份:2019年11月研究背景:花生作为我国重要的经济作物,是提供重要的蛋白和油料的基础。花生属一共包括30个二倍体品种,1个异源四倍体野生花生(A. monticola)和1个栽培花生(A. hypogaea)。作为栽培花生农艺性状改良的重要野生资源供体,野生四倍体花生一直是国内外学者的研究热点。研究中对花生属唯一的野生异源四倍体花生Arachis monticola基因组进行了研究,
2014年6月,在线出版的《自然-遗传》杂志全面报道了中国科学家在解析亚洲棉基因组方面取得的最新进展。 中国科学家解析了全长1700兆碱基对的亚洲棉基因组,其中包含41330个蛋白编码基因,基因组大部分(68.5%)由重复序列组成,是到目前为止已测序的双子叶植物中重复序列比例最高的物种。通过与之前(Wang et al., 2012)由同一团队完成的雷蒙德氏棉基因组(D基因组)的比较,发现A和D基因组在距今约5百万年(2-13百万年)之前从同一祖先分化而来,二者的基因数目和基因序列都极为相近,染色体水平上也保留了高度的共线性,但由于A基因组发生过多次大规模的反转座子插入事件,导致其基因组膨胀至超过D基因组的两倍。上述研究结果将对人类认识棉花基因组的复杂性和棉属物种进化的多样性产生深远的影响。 通过转录组分析和大规模基因比较,研究团队首次在不同的棉花基因组中发现乙烯信号分子发挥了截然相反的作用。D基因组过多的乙烯合成抑制了棉纤维的发育,而A基因组乙烯的不足导致棉纤维不能充分伸长。抗病基因家族研究显示,相对于其近缘种可可,这些基因在对黄萎病有免疫力的D基因组中发生了显著扩张,在A基因组中却发生了显著收缩。此外,大量抗病基因只在D基因组中受黄萎病菌诱导迅速表达,导致A基因组不能在早期有效响应黄萎病菌侵染,几乎完全丧失抗病性。以上研究对于提高棉花产量和纤维品质,增强抗病性都有重要意义。
历时22年,研究人员终于从头到尾破译了完整的人类基因组序列。
钛媒体App4月1日消息,据科技日报,全球顶级期刊《Science》(科学)杂志今天凌晨连发6篇论文报告,公布了人类基因组测序的最新进展:国家人类基因组研究中心(NHGRI)组成的端粒到端粒 (T2T) 联盟科学团队,通过新的技术研究出全球第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异。
这是对标准人类参考基因组,即2013年发布的参考基因组序列(GRCh38)的“重大升级”,增加了之前整条染色体上隐藏的DNA片段,破译了缺失的大约2亿个DNA碱基对以及2000多个新基因——占人类基因组的8%。
这篇研究成果意义重大。科研人员揭示的完整人类基因组序列,是世界上最复杂的谜题之一,这一研究使得人类第一次看到最完整的、无间隙的DNA碱基基因序列,对于人类了解基因组变异的全谱,以及某些疾病的遗传贡献至关重要,将会推动与癌症、出生缺陷和衰老相关的研究与科学发展。
同时,这也是《Science》创刊141年来,首次在同一期杂志中连发6篇论文揭示人类基因组研究。
本论文作者,圣路易斯华盛顿大学医学院遗传学家Ting Wang(音译:王庭)表示,此次拥有完整的基因组,一定会改善生物医学研究。“毫无疑问,这是一项重要的成就。”
据中国科学报,人类基因组计划参与者、中国科学院北京基因组研究所研究员于军表示,假如把人类基因组序列比作一辆非常复杂的汽车,那么与20年前完成的人类基因组草图相比,完整的新序列非常于增添了更多零件。
“我们看到了以前从未阅读过的章节,”本论文通讯作者,华盛顿大学霍华德-休斯医学研究所(HHMI)研究员Evan Eichler(艾希勒)表示,这是全行业的一件大事。
Science封面图研究人员到底破译了什么?人类基因组由超过60亿个独立的DNA碱基、大约2-3万个蛋白质编码基因(整个基因仍未有统一答案)组成,与黑猩猩等其他灵长类动物的数量差不多,分布在23对染色体上。为了读取数以万计的基因组,科学家们首先将所有的DNA链切成几百到几千个单位长度的DNA片段。然后用测序机器读取每个片段中的各个碱基,科学家们试图按照正确的顺序组装这些片段,就像拼凑一个复杂的拼图。
2001年2月12日,由6国科学家共同参与的国际人类基因组计划首次公布人类基因组图谱及初步分析结果;2003年4月15日,公布了人类基因组序列草图。
然而,由于技术限制,当初的人类基因组计划留下了大约8%的“空白”间隙。这部分很难被测序,由高度重复、复杂的DNA块组成,其中包含功能基因以及位于染色体中间和末端的着丝粒和端粒。
实际上,核心的挑战在于,基因组的某些区域反复重复相同的碱基。重复的区域包括着丝粒和核糖体DNA等,过去无法按照正确的顺序组装一些被切碎的片段。这就像拥有相同的拼图碎片一样,科学家们不知道哪块碎片在哪里,因此基因组图中留下了很大的空白。
而且大多数细胞包含两个基因组--一个来自父亲,一个来自母亲。当研究人员试图组装所有的片段时,来自父母双方的序列可能混合在一起,掩盖了个体基因组内的实际变异。
如今,研究人员通过新的纳米机器设备与核心技术,实现了新的无间隙版本T2T-CHM13,由30.55亿个碱基对和19969个蛋白质编码基因组成。增加了近2亿个碱基对的新DNA序列,包括99个可能编码蛋白质的基因和其中近2000个需要进一步研究的候选基因。
这些候选基因大多数是失活的,但其中115个仍然可能表达。团队还在人类基因组中发现了大约200万个额外的变异,其中622个出现在与医学相关的基因中。此外,新序列还纠正了GRCh38中的数千个结构错误。
近端着丝粒染色体的显示图样(来源:论文)
具体而言,新序列填补的空白包括人类5条染色体的整个短臂,并覆盖了基因组中一些最复杂的区域。其中包括在重要的染色体结构中及其周围发现的高度重复的DNA序列,如染色体末端的端粒和在细胞分裂过程中协调复制染色体分离的着丝粒。
此外,新序列还揭示了以前未被发现的节段重复,即在基因组中复制的长DNA片段,并揭示了关于着丝粒周围区域的前所未见的细节。这一区域内的变异性可能为人类祖先如何进化提供新证据。
值得一提的是,本研究成果的关键进展,其实是利用了新的技术设备——英国牛津纳米孔技术公司和太平洋生物科学公司制造的快速迭代的基因测序机器。
早在2017年,国家人类基因组研究中心(NHGRI)负责人Adam Phillippy(亚当-菲利皮),以及加州大学圣克鲁兹分校(UCSC)的凯伦-米加意识到,新的纳米孔机器实现了一次准确读取100万个DNA碱基的能力,可以为最终解决基因组难点打开了大门。
大约在同一时间,华盛顿大学霍华德-休斯医学研究所(HHMI)Evan Eichler(艾希勒)领导的科研团队已经证明,使用太平洋生物科学公司的设备技术,可以解决更复杂形式的遗传变异技术。
因此,三人一起创办了端粒到端粒(T2T)联盟,利用全球约100名科学家团队资源,使其加快了研究佳偶。
随后,该团队连续六个月不间断地利用快速迭代的纳米孔基因测序机器,并请来几十位科学家来组装这些基因片段并分析结果。最终利用设备、技术等,实现了长读数测序读数,并将长读测序与牛津纳米孔的数据相结合,准确率超过了99%,填补了全球基因学研究的空白。
一直到2020年夏天,该团队已经拼上了两条染色体。在新冠疫情爆发的期间,团队通过Slack等通讯工具进行远程工作,获得了另外21条染色体,将每个染色体从一端或端粒排序到另一端。而且,科研人员人员还试图组装基因组中最难的区域,即着丝粒中高度重复的DNA序列。
最终,通过长时间的研究与团队合作,该团队成功实现了对每个染色体进行了测序,包含了编码用于制造核糖体的RNA的基因的多个拷贝,总共400个。
2021年6月,这份研究成果首次发表在预印版平台bioRxiv上。经过同行评议等,如今一系列论文登上了《Science》(科学)杂志。
研究人员在会后采访中表示,下一阶段的研究将对不同人的基因组进行测序,以充分掌握人类基因的多样性、作用以及人类与近亲、其它灵长类动物的关系。
年增速超20%,中国百亿基因市场前景广阔
随着生物学技术的不断发展,新的行业层出不穷,本次研究成果所属的中国基因测序行业是一个百亿级市场,拥有广阔的发展前景。
根据千际投行的研究统计数据显示,早在2019年,基因测序所在的全球生物制品行业市场规模就达到了3172亿元,未来五年有望达到万亿级别。其中,2019年中国基因测序行业市场规模约为149亿元,年增速超20%。
近年来,基因测序行业得到迅速发展,吸引了大量资本和企业的进入。从产业上下游来看,基因测序产业链主要包括了上游仪器、中游服务提供商以及下游终端应用三个环节。涉及到的公司包括华大基因、达安基因、药明康德,以及互联网巨头苹果公司、亚马逊、谷歌、微软等。
整个产业看似简单,但上游的基因测序仪及配套试剂是整个产业链壁垒最高的部分,下游终端应用还涉及领域覆盖面非常广,既包括医疗领域的人体基因组、人体微生物基因组以及基础研究领域,还包括非医疗领域的环境治理、石油存储探测、农牧软文种等。
实际上,早在几十年前,医学界就对此有过尝试,将狒狒的心脏移植给了一个罹患先天性心脏病的孩子。如今,通过嵌合的方式,通过基因编辑的方式,甚至是通过合成生物学的方式,实现了猪心脏在人类身上的移植。
华大集团CEO尹烨曾表示,其实,今天人类进入了生命时代,我们关心的则是自身的基因和健康,以此就将去整合物理世界、信息世界和生命世界。
在应用场景不断拓宽,测序能力进一步加强的共同促进作用下,全球基因测序行业市场规模将不断增长,中国基因行业市场规模虽然与全球头部企业差距较大,但是在国内市场中仍然占据较大的优势,未来要想提高国际市场份额,还需进一步加强技术研发,未来发展具有巨大的想象空间。
今天,新的基因组序列研究成果,是科研人员必不可少的第一步,也是实现商业化的重要一步。
Evan Eichler(艾希勒)表示,“现在我们有了一块罗塞塔石碑(注:一块制作于公元前196年的花岗闪长岩石碑,解读出已经失传千余年的埃及象形文之意义与结构),可以在未来研究数十万个其他基因组的完整编译。”
这个问得太宽泛了,回答压力大啊。首先要看是根据研究对象分类,还是关注的层面分类- 根据研究对象可以大致分为动植物,人类健康和微生物1. 动植物方向近年热点包括基因组辅助分子育种,和杂合物种(如水产、林木等)基因组图谱绘制。当然群体进化一直是生物学永恒的问题,热度从未衰减。2. 人类健康方面主要是各类疾病的研究,首先,基因组学是定位单基因病(孟德尔遗传病)致病位点的利器;其次,基因组学被广泛应用于筛选复杂疾病(如2型糖尿病、免疫类疾病等)的致病基因;最后,癌症一直被认为是基因病,癌症基因组学也在近年成为一个独立的方向,快速发展。3. 微生物这块关注点包括环境微生物,能源微生物和致病微生物等。基因组图谱绘制、宏基因组,以及和其他方向(如合成生物学)的结合交叉等也都是近年热点。- 按照关注层面分类可分为DNA层面,表观修饰层面和RNA层面1. DNA层面逐步开始由单碱基的改变(SNP或point mutation)逐步过渡到结构变异等序列级别的差异。变异检测的灵敏度和准确度在近年都有很大的提升。2. 表观修饰层面对于DNA甲基化和组蛋白修饰的关注也是一直未减退,越来越多的甲基化图谱被绘制,用于观测细胞发育、癌症发展等;ChIP-chip和ChIP-seq也用来检测了大量的组蛋白和DNA的互作情况。3. RNA层面除了基因表达、可变剪切和microRNA之外,长非编码RNA(lncRNA)成为近年的热点。表达和调控一直以来被认为更适合解释我们观察到的表型差异。不断发展的测序技术和越来越多的尖端成果(如单细胞测序)正在推动着基因组学的发展。
李宝键教授在“展望21世纪的生命科学”一文中谈到基因组研究计划研究重要性时,引用《Scinence》上“第三次技术命革”中的一句话:“下一个传大时代将是基因组革命时代,它正处于初期阶段。”在当前的研究水平上,只要涉及生命体重要现象的课题,几乎离不开对基因及其作用的分析。2000年6月26日,英美两国首脑会同公私两大人基因组测序集团向世人正式宣告,人基因组的工作草图已绘制完成。科学家把这作为生命科学进入新时代的标志,即后基因组时代(post-genome era)。因此有必要对基因组及其研究内容和进展作一个了解。1基因组学及其研究内容基因组(GENOME)一词是1920年Winkles从GENes和chromosOMEs组成的,用于描述生物的全部基因和染色体组成的概念。1953年Watson和Crick发现DNA双螺旋结构,标志分子生物学的诞生,随着各学科的发展,当前生物学研究进入新的进代,在生物大分子水平上将不同的研究技术和手段有机的结合以攻克生物学难题。基因组研究可以理解为:(1)基因表达概况研究,即比较不同组织和不同发育阶段、正常状态与疾病状态,以及体外培养的细胞中基因表达模式的差异,技术包括传统的RTPCR,RNase保护试验,RNA印迹杂交,但是其不足是一次只能做一个。新的高通量表达分析方法包括微点阵(microarrary),基因表达序列分析(serial analysis of gene expression,SAGE),DNA芯片(DNA chip)等;(2)基因产物-蛋白质功能研究,包括单个基因的蛋白质体外表达方法,以及蛋白质组研究;(3)蛋白质与蛋白质相互作用的研究,利用酵母双杂交系统,单杂交系统(one-hybrid system),三杂交系统(thrdee-hybrid system)以及反向杂交系统(reverse hybrid system)等。1986年美国科学家Thomas Roderick提出了基因组学(Genomics),指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱),核苷酸序列分析,基因定位和基因功能分析的一门科学。因此,基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics)。结构基因组学代表基因组分析的早期阶段,以建立生物体高分辨率遗传、物理和转录图谱为主。功能基因组学代表基因分析的新阶段,是利用结构基因组学提供的信息系统地研究基因功能,它以高通量、大规模实验方法以及统计与计算机分析为特征。随着1990年人类基因组计划(Human Genome Project,HGP)的实施并取得巨大成就,同时模式生物(model organisms)基因组计划也在进行,并先后完成了几个物种的序列分析,研究重心从开始揭示生命的所有遗传信息转移到从分子整体水平对功能的研究上。第一个标志是功能基因组学的产生,第二个标志是蛋白质组学(proteome)的兴起。2 结构基因组学研究内容结构基因组学(structural genomics)是基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。遗传信息在染色体上,但染色体不能直接用来测序,必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程就是基因作图。根据使用的标志和手段不同,作图有三种类型,即构建生物体基因组高分辨率的遗传图谱、物理图谱、转录图谱。2.1遗传图谱通过遗传重组所得到的基因在具体染色体上线性排列图称为遗传连锁图。它是通过计算连锁的遗传标志之间的重组频率,确定他们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)来表示。绘制遗传连锁图的方法有很多,但是在DNA多态性技术未开发时,鉴定的连锁图很少,随着DNA多态性的开发,使得可利用的遗传标志数目迅速扩增。早期使用的多态性标志有RFLP(限制性酶切片段长度多态性)、RAPD(随机引物扩增多态性DNA)、AFLP(扩增片段长度多态性);80年代后出现的有STR(短串联重复序列,又称微卫星)DNA遗传多态性分析和90年代发展的SNP(单个核苷酸的多态性)分析。2.2物理图谱物理图谱是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序,以及遗传标志之间物理距离[碱基对(bp)或千碱基(kb)或兆碱基(Mb)的图谱。以人类基因组物理图谱为例,它包括两层含义,一是获得分布于整个基因组30 000个序列标志位点(STS,其定义是染色体定位明确且可用PCR扩增的单拷贝序列)。将获得的目的基因的cDNA克隆,进行测序,确定两端的cDNA序列,约200bp,设计合成引物,并分别利用cDNA和基因组DNA作模板扩增;比较并纯化特异带;利用STS制备放射性探针与基因组进行原位杂交,使每隔100kb就有一个标志;二是在此基础上构建覆盖每条染色体的大片段:首先是构建数百kb的YAC(酵母人工染色体),对YAC进行作图,得到重叠的YAC连续克隆系,被称为低精度物理作图,然后在几十个kb的DNA片段水平上进行,将YAC随机切割后装入粘粒的作图称为高精度物理作图.2.3转录图谱利用EST作为标记所构建的分子遗传图谱被称为转录图谱。通过从cDNA文库中随机条区的克隆进行测序所获得的部分 cDNA的5'或3'端序列称为表达序列标签(EST),一般长300~500bp左右。一般说,mRNA的3' 端非翻译区(3'-UTR)是代表每个基因的比较特异的序列,将对应于3'-UTR的EST序列进行RH定位,即可构成由基因组成的STS图。截止到1998年12月底,在美国国家生物技术信息中心(NCBI)数据库中分布的植物EST的数目总和已达几万条,所测定的人基因组的EST达180万条以上。这些EST不仅为基因组遗传图谱的构建提供了大量的分子标记,而且来自不同组织和器官的EST也为基因的功能研究提供了有价值的信息。此外,EST计划还为基因的鉴定提供了候选基因(candidantes)。其不足之处在于通过随机测序有时难以获得那些低丰度表达的基因和那些在特殊环境条件下(如生物胁迫和非生物胁迫)诱导表达的基因。因此,为了弥补EST计划的不足,必须开展基因组测序。通过分析基因组序列能够获得基因组结构的完整信息,如基因在染色体上的排列顺序,基因间的间隔区结构,启动子的结构以及内含子的分布等。3功能基因组学研究功能基因组学(functional genomics)又往往被称为后基因组学(postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育上功能,如参与形态建成等采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析。新的技术应运而生,包括基因表达的系统分析,cDNA微阵列,DNA芯片等。鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异,因此需要建立模式生物体。比较基因组学(Comparative Genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。目前从模式生物基因组研究中得出一些规律:模式生物基因组一般比较小,但编码基因的比例较高,重复顺序和非编码顺序较少;其G+C%比较高;内含子和外显子的结构组织比较保守,剪切位点在多种生物中一致;DNA 冗余,即重复;绝大多数的核心生物功能由相当数量的orthologous蛋白承担;Synteny连锁的同源基因在不同的基因组中有相同的连锁关系等。模式生物基因组研究揭示了人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因,利用模式生物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。 此外,可利用诱变技术测定未知基因,基因组多样性以及生物信息学(Bioinformatics)的应用。4蛋白质组学研究基因是遗传信息的携带者,而全部生物功能的执行者却是蛋白质,它有自身的活动规律,因而仅仅从基因的角度来研究是远远不够的,必须研究由基因转录和翻译出蛋白质的过程,才能真正揭示生命的活动规律,由此产生了研究细胞内蛋白质组成及其活动规律的新兴学科——蛋白质组学(proteomics)。蛋白质组(proteome)是由澳大利亚Macquarie大学的Wilkins和Williams于1994首先提出,并见于1995年7月的“Electrophonesis”上,指全部基因表达的全部蛋白质及其存在方式,是一个基因、一个细胞或组织所表达的全部蛋白质成分,蛋白质组学是对不同时间和空间发挥功能的特定蛋白质群体的研究。它从蛋白质水平上探索蛋白质作用模式、功能机理、调节控制以及蛋白质群体内相互作用,为临床诊断、病理研究、药物筛选、药物开发、新陈代谢途径等提供理论依据和基础。 蛋白质组学旨在阐明生物体全部蛋白质的表达模式及功能模式,内容包括鉴定蛋白质表达、存在方式(修饰形式)、结构、功能和相互作用方式等。它不同于传统的蛋白质学科,是在生物体或其细胞的整体蛋白质水平上进行的,从一个机体或一个细胞的蛋白质整体活动来揭示生命规律。但由于蛋白质具有多样性和可变性,复杂性,低表达蛋白质难以检测等,应该明确其研究的艰难性。总体上研究可以分为两个方面:对蛋白质表达模式(或蛋白质组成)研究,对蛋白质功能模式(目前集中在蛋白质相互作用网络关系)研究。对蛋白质组研究可以提供如下信息:从基因序列预测的基因产物是否以及何时被翻译;基因产物的相对浓度;翻译后被修饰的程度等。由于蛋白质数目小于基因组中开放阅读框(ORF, open reading frame)数目,因此提出功能蛋白质组学(functional proteomics),功能蛋白质指在特定时间、特定环境和试验条件下基因组活跃表达的蛋白质,只是总蛋白质组的一部分。功能蛋白质组学研究是位于对个别蛋白质的传统蛋白质研究和以全部蛋白质为研究对象的蛋白质研究之间的层次,是细胞内与某个功能有关或某种条件下的一群蛋白质。对蛋白质组成分析鉴定,要求对蛋白质进行表征化,即分离、鉴定图谱化,包括两个步骤:蛋白质分离和鉴定。双向凝胶电泳(2-DGE)和质谱(MS)是主要的技术。近年来,有关技术和生物信息学在不断并迅速开发和发展中。蛋白质组研究技术体系包括:样品制备;双向聚丙烯酰胺凝胶电泳(two-dimensional polyacrylamide gel electrophoresis,2-D PAGE);蛋白质的染色;凝胶图像分析;蛋白质分析;蛋白质组数据库。其中三大关键是:双向凝胶电泳技术、质谱鉴定、计算机图像数据处理与蛋白质数据库。5与基因组学相关学科诞生随着基因组学研究的不断深入,人类有望揭示生命物质世界的各种前所未知的规律,完全揭开生命之谜,进而驾驶生命,使之为人类的社会经济服务。基因组研究和其它学科研究交叉,促进一些学科诞生,如营养基因组学(nutritional genomics),环境基因组学(environmental genomics),药物基因组学(phamarcogenomics),病理基因组学(pathogenomics),生殖基因组学(reproductive genomics),群体基因组学(population genomics)等。其中,生物信息学正成为备受关注的新型产业的支撑点。生物信息学是以生物大分子为研究,以计算机为工具,运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学。研究重点体现在基因组学和蛋白质两个方面。首先是研究遗传物质的载体DNA及其编码的大分子量物质,以计算机为工具,研究各种学科交叉的生物信息学的方法,找出其规律性,进而发展出适合它的各种软件,对逐步增长的DNA 和蛋白质的序列和结构进行收集、整理、发布、提取、加工、分析和发现。由数据库、计算机网络和应用软件三大部分组成。其关注的研究热点包括:序列对比,基因识别和DNA序列分析,蛋白质结构预测,分子进化,数据库中知识发现(Knowledge Discovery in Database, KDD)。这一领域的重大科学问题有:继续进行数据库的建立和优化;研究数据库的新理论、新技术、新软件;进行若干重要算法的比较分析;进行人类基因组的信息结构分析;从生物信息数据出发开展遗传密码起源和生物进化研究;培养生物信息专业人员,建立国家生物医学数据库和服务系统[5]。20世纪末生物学数据的大量积累将导致新的理论发现或重大科学发现。生物信息学是基于数据库与知识发现的研究,对生命科学带来革命性的变化,对医药、卫生、食品、农业等产业产生巨大的影响。邹承鲁教授在谈论21世纪的生命科学时讲到,生物学在20世纪已取得巨大的发展,数理科学广泛而又深刻地深入生物学的结果在新的高度上揭示了生命的奥妙,全面改变了生物学的面貌。生物学不仅是当前自然科学发展的热点,进入21世纪后将仍然如此。科学家称21世纪是信息时代。生物科学和信息科学结合,无疑是多个学科发展的必然结果。
因为基因的破译是一个繁琐的工程,而且精密度非常高,所以说这是世界上最复杂的谜题之一。