基因芯片——“生物信息精灵”——浅谈数学、计算机在现代生命科学研究中的作用二十世纪是物理科学的世纪,而二十一世纪则是生命科学的世纪。生命科学,尤其是生物技术的迅猛发展,不仅与人类健康,农业发展以及生存环境密切相关,而且还将对其它学科的发展起到促进作用,所谓"今天的科学,明天的技术,后天的生产"。而生命科学的基础性研究是现代生物技术的源泉、科学和技术创新的关键。现代生物技术,是一门领导尖端科技的学科,正因如此,我很想知道它与数学——我得专业课,计算机等理论或技术是怎样有机的联系在一起的。基于此,我利用课余时间查阅了许多网站、书籍,并有了小小的收获。现就“基因芯片”技术,浅谈如下。一、基因芯片简介基因芯片,也叫DNA芯片,是在90年代中期发展出来的高科技产物。基因芯片大小如指甲盖一般,其基质一般是经过处理后的玻璃片。每个芯片的基面上都可划分出数万至数百万个小区。在指定的小区内,可固定大量具有特定功能、长约20个碱基序列的核酸分子(也叫分子探针)。由于被固定的分子探针在基质上形成不同的探针阵列,利用分子杂交及平行处理原理,基因芯片可对遗传物质进行分子检测,因此可用于进行基因研究、法医鉴定、疾病检测和药物筛选等。基因芯片技术具有无可比拟的高效、快速和多参量特点,是在传统的生物技术如检测、杂交、分型和DNA测序技术等方面的一次重大创新和飞跃。二、基因芯片技术生物芯片技术是于90年代初期随着人类基因组计划的顺利进行而诞生,它是通过像集成电路制作过程中半导体光刻加工那样的微缩技术,将现在生命科学研究中许多不连续的、离散的分析过程,如样品制备、化学反应和定性、定量检测等手段集成于指甲盖大小的硅芯片或玻璃芯片上,使这些分析过程连续化和微型化。也就是说将现在需要几间实验室、检验室完成的技术,制作成具有不同用途的便携式生化分析仪,使生物学分析过程全自动化,分析速度成千上万倍地提高,所需样品及化学试剂成千上万倍地减少。可以预见,在不远的将来,用它制作的微缩分析仪将广泛地应用于分子生物学、医学基础研究、临床诊断治疗、新药开发、司法鉴定、食品卫生监督、生物武器战争等领域。生物芯片技术是目前应用前景最好的DNA分析技术之一,分析对象可以是核酸、蛋白质、细胞、组织等。目前全世界用生物芯片进行疾病诊断还处于研究阶段,国外已将其用于观察癌基因及肌萎缩等一些遗传病基因的表达和突变情况。生物芯片技术还可以用于治疗,例如已开发出在4平方毫米的芯片上布满400根有药物的针,定时定量为病人进行药物注射。另外,科学家还在考虑制作定时释放胰岛素治疗糖尿病的生物芯片微泵及可以置入心脏的芯片起搏器等。生物芯片技术与组合化学相结合将开辟另一个极有价值的应用方向,即为新药研制提供超高通量筛选平台技术,这必将使新药研究开发和传统中药的成分评估获得重大突破。三、基因芯片的应用技术举例1、基因破译目前,由多国科学家参与的“人类基因组计划”,正力图在21世纪初绘制出完整的人类染色体排列图。众所周知,染色体是DNA的载体,基因是DNA上有遗传效应的片段,构成DNA的基本单位是四种碱基。由于每个人拥有30亿对碱基,破译所有DNA的碱基排列顺序无疑是一项巨型工程。与传统基因序列测定技术相比,基因芯片破译人类基因组和检测基因突变的速度要快数千倍。基因芯片的检测速度之所以这么快,主要是因为基因芯片上有成千上万个微凝胶,可进行并行检测;同时,由于微凝胶是三维立体的,它相当于提供了一个三维检测平台,能固定住蛋白质和DNA并进行分析。美国正在对基因芯片进行研究,已开发出能快速解读基因密码的“基因芯片”,使解读人类基因的速度比目前高1000倍。图1所示为一种内嵌基因芯片的基因检测装置。2、基因诊断通过使用基因芯片分析人类基因组,可找出致病的遗传基因。癌症、糖尿病等,都是遗传基因缺陷引起的疾病。医学和生物学研究人员将能在数秒钟内鉴定出最终会导致癌症等的突变基因。借助一小滴测试液,医生们能预测药物对病人的功效,可诊断出药物在治疗过程中的不良反应,还能当场鉴别出病人受到了何种细菌、病毒或其他微生物的感染。利用基因芯片分析遗传基因,将使10年后对糖尿病的确诊率达到50%以上。未来人们在体检时,由搭载基因芯片的诊断机器人对受检者取血,转瞬间体检结果便可以显示在计算机屏幕上。利用基因诊断,医疗将从千篇一律的“大众医疗”的时代,进步到依据个人遗传基因而异的“定制医疗”的时代。3、基因环保基因芯片在环保方面也大有可为。基因芯片可高效地探测到由微生物或有机物引起的污染,还能帮助研究人员找到并合成具有解毒和消化污染物功能的天然酶基因。这种对环境友好的基因一旦被发现,研究人员将把它们转入普通的细菌中,然后用这种转基因细菌清理被污染的河流或土壤。4、基因计算DNA分子类似“计算机磁盘”,拥有信息的保存、复制、改写等功能。将螺旋状的DNA的分子拉直,其长度将超过人的身高,但若把它折叠起来,又可以缩小为直径只有几微米的小球。因此,DNA分子被视为超高密度、大容量的分子存储器。基因芯片经过改进,利用不同生物状态表达不同的数字后还可用于制造生物计算机。基于基因芯片和基因算法,未来的生物信息学领域,将有望出现能与当今的计算机业硬件巨头――英特尔公司、软件巨头――微软公司相匹敌的生物信息企业。四、基因芯片的实际应用基因芯片在生命科学、医药研究、环境保护和农业等领域有极其重要的应用价值。在基因芯片的驱动下,人类正进入一个崭新的生物信息时代。1、在美国科学家第一次将一个他们称之为生物芯片的计算机芯片植入人体的细胞上,从而使人体细胞与计算机连接。这是美国科学家波利斯·鲁宾斯基(Boris Lubinsky)和他的同事黄永(译音)在3月份的美国《生物医学微设备》杂志中著文披露的。2、人体细胞外面包有一个细胞膜,该细胞膜具有使特定物质单向通过的功能。多年来,科学家们一直寻求找到用电冲击的方法,使所希望的物质进入细胞膜,但直 到目前为止,所用的方法有时成功,有时失败。而使用鲁宾斯基和黄永研究出来的 新方法,细胞膜由计算机得到一个信号,让某些物质进入到细胞中。随具体场合的 不同,这些物质可以是例如用来改变基因的遗传物质,也可以是药物或蛋白质。这样,就可以更好地使这些物质发生效力。鲁宾斯基等科学家打算研制出能对例如神经细胞和肌肉等人体组织发出指令的生物芯片,这样至少会使人所服用的药物发挥更大的效力。俄亥俄州立大学生物医学工程中心主任莫里罗·弗拉里称鲁宾斯基的这项发明是处在发展阶段早期的具有潜在作用的实验室工具。美国科学家们称,他们已经找到了一种能使人体细胞和电路进行交配的生物工程芯片,它能在医学和基因工程学方面发挥关键的作用。这种比头发还小还细的微型装置使健康人体细胞和电子芯片结合,通过电脑对芯片进行控制,科学家认为他们能够控制细胞的活动。电脑向细胞芯片发送电脉冲,激发细胞膜孔张开,并激活细胞。科学家希望能够大批量地生产这种细胞芯片,并能够把它们植入人体,取代或修正病变组织。领导这项研究的加州大学机械工程学教授鲍里斯·鲁宾斯基说:“细胞芯片还使科学家在复杂的基因治疗过程中更准确地进行控制,因为他们能够更准确地开启细胞孔。”鲁宾斯基还说:“我们在生物学领域里引入了工程学的精髓,我们完全可以在不影响周围其它细胞的情况下输入DNA、提取蛋白质以及注射药物。”该细胞芯片的出现与长期存在的一种理论有关,即一定量的电压能够穿透细胞膜。多年来,科学家一直在进行用电力轰击细胞试验的遗传研究,希望藉此引入新的疗法和基因物质。研究人员希望能最终制造出与激活不同的身体组织(从肌肉到骨骼到大脑)所需的准确的电压量相调合的细胞芯片。那样的话,将会有数以千计的细胞芯片用来治疗各种类型的疾病。3、用独创技术自行研制的中国第一片应用型基因芯片于近日在第一军医大学正式诞生。据第一军医大学有关负责人透露,该军医大研制成功的基因芯片,是中国首次应用一种创新的基因片扩增技术,率先攻克了内地同行在基因芯片研究中首先面临的快速经济地搜集数以万数基因探针难题,并巧妙运用新技术手段明显地降低成本。目前,该芯片已完成实验室工作,即将进入临床验证阶段,如果顺利,用於临床诊断的基因芯片可望不久投入批量生产。但到目前为止,全世界还没有实际用於临床应用诊断的基因芯片生产。在实验室里,将这几片比大拇指盖稍大的基因芯片,放在检测器上,与之相连的电脑屏幕上立刻出现了纵横交错的红红绿绿荧光点,出现的每个荧光点就是一个基因片断的点阵。只要取病人一滴血放在芯片检测卡上,经过分子杂交后,连上电脑就可以立刻显示出基因变化情况,并通过电脑把基因语言翻译成医生能读得懂的信息,从而对疾病做出准确的诊断。这种芯片的成功诞生,标志着疾病的诊断由细胞和组织水平推进到基因水平。它们的开发应用将在环境污染控制、动植物检疫、器官移植、产前诊断、药物筛选、药物开发等方面展示出广阔的前景。五、生命科学渐成IT公司关注焦点人类基因组工作草图绘毕的消息像打开了阿里巴巴宝藏的大门,以基因技术为核心的生命科学市场正吸引着越来越多的淘金者。近来,为这些淘金者生产“铁锨”的资讯科技(IT)公司的积极行动颇为引人注目。1、揭开基因之迷须破译大量数据人类基因组草图仅仅是读出了“生命之书”,而要真正读懂它,揭示所有基因编码所代表的信息,还必须破译浩如烟海的数据。在著名的英国桑格中心里,有关人类基因组的数据已经达到22万亿字节,是世界上首屈一指的美国国会图书馆藏书内容的两倍多。据这家中心估计,在未来两至三年内,与人类基因组有关的数据量还将上升到50万亿至100万亿字节。2、生命科学公司10%投资用于开发资讯科技为了解决处理数据所需的庞大计算能力的问题,世界上最大的12家生命科学公司目前把近10%的科研预算用于资讯科技投资,而且这个比例可能还将增长。据美国国际商业机器公司(IBM)估计,与生命科学有关的资讯科技市场将在今年达到35亿美元,到2003年达到90亿美元。3、市场潜力巨大一些著名的IT企业,已将眼光瞄准了这一潜力巨大的市场。例如,IBM已经决定投资1亿美元,用五年时间研制一种名为“蓝基因”的超级电脑。“蓝基因”的运算能力将是美国现有40台最快的超级电脑运算能力总和的40倍,它主要用于模拟人类蛋白折叠成特殊形状的过程。世界最大的个人电脑制造商美国康柏公司,也垂涎这块“肥肉”。4、康柏趁早下手培养未来客户基础已经成为生命科学领域电脑服务器主要供应商的康柏公司最近宣布,它将继续投资1亿美元,支持新兴生物技术公司,以培养未来的客户基础。其实,IT公司还远不止盯着这些近期利益。以基因研究为基础的生物经济可能在新世纪里成为新经济的重要组成部分,对此人们已经达成共识。5、行业标准制定者能享有巨大经济利益根据以往的经验,率先进入市场的公司大多能够成为行业标准的制定者,这些行业标准往往意味着巨大的经济利益。今年8月,德国狮生命科学公司的股票上市。由于投资者看中这家公司的基因次序检索系统(SRS)可能成为行业新标准,其股票价格在短短时间里迅速上涨了50%。6、政府支持基因研究IT公司进军生命科学领域,与各国政府对基因研究的支持密不可分。为了在基因组研究的下一个阶段——分析蛋白质结构的国际竞争中领先,不少国家积极采取措施,促进信息业与生物产业的结合。例如,日本不久前就组织了“官产学”大联合的“生物产业信息化研究共同体”,参加这个共同体除了制药、食品、生物、化学等与基因科学相关的企业外,还有不少电脑公司。小结:科学界公认,生物芯片技术将给下个世纪生命科学和医学研究带来一场革命。目前我国科学家正在加速研制这种可能快捷便利提取DNA,查找遗传基因特性的新技术。相信,这一现代生物与高科技联姻的成果将为二十一世纪的发展作出巨大的贡献!
一, 生物信息学发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用.经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础.正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然.2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域.生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿.二, 生物信息学的主要研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.1,序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和GENSCAN,Splice Alignment等等.4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因Paralogous: 相同种族,不同功能的基因Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.8, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.三, 生物信息学与机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能[5].机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.四, 生物信息学的数学问题生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1, 统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,如图1:图1 两组同心圆的数据集图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2, 度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.五, 几种统计学习理论在生物信息学中应用的困难生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.六, 讨论与总结人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法:Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力.毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列以及相关的内容,我们还有相当长的路要走.(来源 ------[InfoBio.org | 生物信息学研讨组])生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
谁一个、、论文不才交么……生物信息在生物学研究中的作用。生物信息是指生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广,除遗传物质、神经电冲动和激素之外,生物体发出的声音、气味、颜色以及生物的行为本身都含有信息,都对生物的个体和群体产生影响,和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。从历史上看,首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(现在称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。 关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,现在已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息,加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此,神经信息对于有机体的生存以及正常生活起着至关重要的作用。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。生物信息在生物研究中有重要作用,然而,原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此,生物信息学便是生物信息在生物研究中重要应用。 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。 生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。
现代生命科学导论作业汇编参考下面的地址,点左边的有很多论文
医学导论论文基本结构怎么写一、论文标题论文标题的文字需要概括精练,一般不可以超过15-20个字,论文标题要居中(单行),论文标题上行比下行题目长(双行);英文论文的标题要求不超过12个词或100个字符;论文标题不能使用缩写词或简化词;尽量不用标点符号。二、内容摘要论文摘要也成为提要、文摘,是论文重要的组成部分,论文摘要由四部分组成,分别是:目的、方法、结果和结论。三、关键词关键词又叫做主题词,它是在论文的标题、摘要以及论文正文中挑选出来的,可以反映论文主要概念,论文关键词的质量直接影响了论文的收录与利用,关键词有利于对全文的检索。四、引言论文的开端就是引言,交代了论文中研究成果的来龙去脉,解释了我们为什么要研究这个课题课题?目的是为了什么?使读者对论文内容有一个整体的了解,引起读者的兴趣。五、正文引言之后就是正文了、它是论文的核心部分。提出论点、论据、论证过程、结果以及讨论都需要在正文内容中进行发表展现。六、结论(结语、结束语)论文的结论要体现其在研究、预测和评价其应用前景和社会经济价值的基础上的价值,明确展示研究的成果和观点,并指出今后进一步研究工作的前景和设想。七、致谢正文内容完结时,因对整个研究过程中给予帮助和支持的单位和个人表示感谢。特别是那些参与部分研究工作的人。八、 附录附录是不列入在论文正文中。它包括实验部分的详细数据、图表等内容,有的是在论文中写的,有的是一些新发现,这些信息需要补充,所以需要列入到附录之中。附录中列出的材料可以按论文的顺序排列。九、参考文献凡是作者引用的其他人论文、报告中的观点、材料、数据、研究成果等信息、都需要根据在论文的引用顺序标出引用的参考文献的作者名称。每个参考文献都按标题、作者和来源进行排列。
纯生信文章可以评职称的。纯生信是指不用做实验就可以发表的生信文章,生信文章是指生物信息学类的文章只要文章写得好,并且对医学有一定的进步,发展完全可以评得上职称。
Bio informatics是作为生物信息学最重要的专门期刊了。2012年度IF=5.468 另外还有Briefings in Bio informatics,这个杂志每年的发稿量少,最近几年IF波动很大,第一年24+,后来到9+,2012年度IF=5.202。 稍次一点的杂志,如BMC Bio informatics,也是生物信息学的专刊。2012年度IF=3.447 对于计算向的生物信息学,PLOS Computational Biology是一个很好的期刊。2012年度IF=5.215 除此之外,Nature Method,也会有生物信息学相关的方法发表。2012年度IF=19.276。PLOS Biology也是很好的杂志,2012年度IF=11.452。PLOS One也会经常有生物信息学文章,但被批灌水太多,算不得牛刊,2012年度IF=4.092。生物信息学相关的文章不一定要发到专门的生物信息学杂志,因为生物信息学作为一个工具,已经融入到很多生物问题的研究中,而不仅仅是一门孤立的学科了。
Bio informatics,很多方法类文章都发在上面,但是影响因子一般。如果有实验和数据分析,大多投到生物相关的杂志,比如genome research, nature genetics, nature等,在method里面涉及一些生信的方法,连带把algorithm放出来,供大家使用。所以,不一定非要发到Bio informatics。以前在Adderley学计算机的,研究字符串比较之类的问题,UNIX下的gnu diff就是他的杰作。后来写了blast,blast的重要性就不多说了,在后来在Celerity把string graph 应用到genome assembly,直接把HGP操翻。虽然现在因为2代测序出现D Bruising占了上风,不过随着3代测序的普及,他的string graph based OLC将再一次统治genome assembly界。
调查媒体对生物科学技术发展的报道 多姿多彩的生物,使地球上充满了生机。人类的生存和发展同各种各样的生物息息相关。自古以来,人类就不断探索生物界的奥秘,从中获益良多。现代社会,生物科学在人类社会的各个领域发挥着日益重要的作用。人类社会与生物学的关系越来越紧密。生物科学与社会的关系 随着生物科学的发展,生物科学技术对社会的影响越来越大。这主要表现在以下几个方面: 1.影响人们的思想观念,如进化的思想和生态学思想正在被越来越多的人所接受。 2.促进社会生产力的提高,如生物技术产业正在形成一个新兴产业;农业生产力因生物科学技术的应用而显著提高。 3.随着生物科学的发展,将会有越来越多的人从事与生物学有关的职业。 4.促进人们提高健康水平和生活质量,延长寿命。 5.影响人们的思维方式,如生态学的发展促进人们的整体性思维;随着脑科学的发展,生物科学技术将有助于改进人类的思维。 6.对人类社会的伦理道德体系产生冲击,如试管婴儿、器官移植、人基因的人工改造等,都会对人类社会现有的伦理道德体系产生挑战。 7.生物科学技术的发展对社会和自然界也可能产生负面影响,如转基因生物的大量生产改造物种的天然基因库,可能会影响生物圈的稳定性。 理解科学技术与社会的关系,是科学素质的重要组成部分。因此,中学生课程中应当充实这方面的内容。展望21世纪的科学技术 21世纪的科学研究将在四个层面上展开。 第一个层面是研究物质结构及其运动规律的物质科学,由此将深化人们对物质世界和字宙起源与演化的认识。 第二个层面是生命科学。20世纪末,人类基因组全部测序工作基本完成,预示着新世纪生命科学必将酝酿着新的突破,将引发对解读基因密码规律的探索,从而使人类在分子水平上能够找到生命起源及其演化过程的谱系,发现生命遗传、生殖与发育、生长与衰老、代谢与免疫等机制。同时通过对人类基因密码的解读.-些重大的疾病基因将被发现,使危害人类生命的疾病得到治疗。 第三个层面是地球与环境科学。21世纪,地球与环境科学将更加注重人类与自然环境的协调发展,并从工业经济时代的注重矿产资源,逐步转移到重视新能源、水、耕地和生态资源,研究对象从陆地更多地拓展到海洋、太空等。 第四个层面就是对人脑与认知的研究。21世纪,人类将在脑科学、认知神经科学研究和人类起源与进化的几个重大问题上取得突破性进展,这也将是科学发展的一个新高峰。脑与认知神经科学的进展将进一步揭示人类意识、思维的本质,为攻克脑的疾病提供基础。同时为开发智能计算机、仿脑的信息系统以及能像人一样思维和动作的机器人创造了条件,这将对人类文明进程产生无可限量的影响。生物科学与计算机技术的结合 20世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展?并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科——生物信息学——悄然兴起。 生物信息学的诞生及其重要性 早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。但是,就生物信息学的发展而言,它还是一门相当年轻的学科。直到20世纪80—90年代,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。 1987年,林华安博士正式把这一学科命名为“生物信息学”(Bioinformatics)。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 生物信息学不仅是一门新学科,更是一种重要的研究开发工具。从科学的角度来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综合系统科学。只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。从工具的角度来讲,生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。只有根据生物信息学对大量数据资料进行分析后,人们才能选择该领域正确的研发方向。 生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它的许多研究成果可以较快地产业化,成为价值很高的产品。 生物信息学的研究内容 生物信息学的研究内容是伴随着基因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是用好这些数据。 具体地说,生物信息学是把基因组DNA(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。 纵观当今生物信息学界的现状可以发现,大部分研究人员都把注意力集中在基因组、蛋白质组、蛋白质结构以及与此密切相关的药物设计上。 1. 基因组 基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。这样,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。而基因组大规模测序的每一个环节,都同信息分析紧密相关,每一步都紧密依赖于生物信息学的软件和数据库。 2. 蛋白质组 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行。由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,而从RNA到蛋白质还有许多中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者——蛋白质的整体表达状况。因此,近年在发展基因芯片的同时,人们还发展了一套研究基因组所有蛋白质产物表达情况的技术——蛋白质组研究技术,包括二维凝胶电泳技术和质谱测序技术。然而,最重要的是如何运用生物信息学的方法去分析获得的海量数据,从中还原出生命运转和调控的整体系统的分子机制。 3. 蛋白质结构及新药设计 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来。要了解它们的功能,只有氨基酸序列是远远不够的。得到这些新蛋白的完整、精确和动态的三维结构,是摆在人们面前的紧迫任务。 近年,随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得了精确的测定。根据生物大分子结构的知识,有针对性地设计药物成为热点。生物信息学的研究不仅可以提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用以及动力学行为的信息。但是,生物信息学的任务远不止于此,最重要的是如何运用数理理论成果,对生物体进行完整系统的数理模型描述,以便使人类能够从一个更明确的角度、以一种更易于操作的方式,来认识和控制自身以及其他生命体。 国内外生物信息学研究的现状 国外一直非常重视生物信息学的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。目前,绝大部分核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生。它们共同组成国际核酸序列数据库,每天交换数据,同步更新。 近年,美国一些最著名的大学,如哈佛大学、普林斯顿大学、斯坦福大学、加州大学伯克利分校等,都投资几千万到一亿多美元成立了生物学、物理学、数学等学科交叉的新中心,诺贝尔奖获得者朱棣文领导的斯坦福大学的中心还命名为Bio-X。1999年6月,美国NIH的一个顾问小组建议在生物计算领域设立总额为数亿美元的重大科研基金,并成立5到20个计算中心以处理海量的基因组相关信息。 我国对生物信息学领域也越来越重视,一些著名大学和研究所在各自领域取得了一定成绩,例如,北京大学在生物信息学网站建设方面,中科院生物物理所在EST序列拼接及在基因组演化方面,天津大学在DNA序列的几何学分析方面等等。北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站。但从全国总体来看,与国际水平差距还很大。目前,国内生物(医药)科学研究与开发,对生物信息学研究和服务的需求市场非常广阔,但是,真正开展生物信息学具体研究和服务的机构或公司却相对较少,仅有的几家科研机构主要开展生物信息学理论研究,生物信息学服务公司提供的服务仅局限于简单的计算机辅助分子生物学实验设计,而且服务体系也不完善。 生物学是生物信息学的核心,计算机科学技术是它的基本工具。展望生物信息学的未来,就是预测它对生物学的发展将带来哪些根本性的突破。这种预测是十分困难的。然而,科学史的发展表明,科学数据的大量积累将导致重要科学规律的发现。因此,有理由相信,当今海量生物学数据的积累,也将导致重大生物学规律的发现。 近年来,世界各国在生物科学上都投入了大量的人力和物力,生物科学技术也随之不断的迅速发展。英国开发出糖尿病基因疗法,日本科学家找到白发基因、发现干胚胎干细胞开关,德国科学家发明新型抗癌药物,法国宣布人类基因组工作草图完成,美国更是宣布已完成人体基因排序;中国当然也不甘人后,先后成功的完成了转基因鲤鱼、乙肝疫苗及杂交水稻的培育。生物科学的不断发展促使着人类社会的不断前进,看到中国科学院的院长路甬祥对21世纪科学技术的展望我们不难看到生物科学将是未来的主要学科之一,我们作为中学生应该努力学好这门学科,并多多关心媒体对生物科学的报道,关注生物科学的发展。
ijb的意思是生物信息学的国际性专业期刊。
ijb是International Journal of Bioinformatics的英文缩写,意思是生物信息学的国际性专业期刊。生物信息学的国际性专业期刊主要刊载生物信息及相关领域的研究进展、综述、研究论文、研究简报、技术与方法、专题评论等学术文章。
生物信息学的国际性专业期刊登载的研究论文应是没有在国内外公开出版的刊物上发表过的原始研究工作报告;及时反映生物信息领域的发展热点和最新进展;本刊还刊登有关生物信息技术国内外研究开发动态、简讯、产业政策与产业发展动态、学术活动与展会通知、书评、短评、启事等文章。
生物信息学简介:
生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。
生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。
以上内容参考 百度百科-生物信息学
根据数据调查发现陈润生院士是中国科学院院士,1941年6月生于天津市,籍贯天津,1964年,毕业于中国科学技术大学生物物理系, 现任中国科学院生物物理研究所非编码核酸重点实验室研究员,博士生导师,国际人类基因组组织(HUGO)会员,国际数据库组织(CODATA)生物大分子专业组委员,国际纯粹及应用物理学会(IUPAP)生物信息学专业委员会委员。陈润生是中国最早从事理论生物学和生物信息学研究的科研人员之一。在生物信息学领域进行了系统的研究,曾参加中国第一个完整基因组泉生热袍菌B4基因组序列的组装和基因标识,曾参加人类基因组1%和水稻基因组工作草图的研究。共发表SCI收录学术论文120余篇,并多次在国际学术会议上应邀做报告。陈院士这一堂课每一届只有一千个名额,但每次都会爆满,礼堂总是座无虚席。学生们表示,课后得到陈院士的签名,也是对自己以后科研事业的一种激励。许多人通过院士的数量来判断大学院系能力,院士多的大学被认为更强大,更有影响力。 学院院士数量非常有限:全国有数千所大学,平均每所大学只有不到一名院士。 大部分的学者都集中在最有名望的著名大学里。例如,清华大学有54名中国科学院院士和38名中国工程院院士,而北京大学则更多,两个机构都有大约120名院士。要是全职院士,双聘的一年到头都可能来不了一次 。值得一提的是 8:30开始的课,6点半已经占不到座 ,可以想到是怎样的一幅景象。
给你两个网站吧,里面有些范文
我刚刚做的毕业设计就是生物信息学的,可以到生物谷,生物秀,北大生物信息中心看看,另外百度百科对生物信息学的介绍很详细,再找点论文,如张春霆院士的生物信息学的形成与发展,生物信息学的研究内容与展望,我是做基因组到的,所以觉得<人与其他生物基因组若干重要问题的生物信息学研究>不错.
这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。
谁一个、、论文不才交么……生物信息在生物学研究中的作用。生物信息是指生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广,除遗传物质、神经电冲动和激素之外,生物体发出的声音、气味、颜色以及生物的行为本身都含有信息,都对生物的个体和群体产生影响,和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。从历史上看,首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(现在称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。 关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,现在已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息,加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此,神经信息对于有机体的生存以及正常生活起着至关重要的作用。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。生物信息在生物研究中有重要作用,然而,原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此,生物信息学便是生物信息在生物研究中重要应用。 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。 生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。