生物信息学我有来头
给你两个网站吧,里面有些范文
最好先阅读几篇相应文章和相今似的论文,比如你的课题是油菜,你可以搜有关其他物种如小麦的。根据论文写作步骤制定实验计划。要练习使用一些常用软件,如NCBI,GenBank,在用时最好先下载安装有道词典,因为是英文网站,不容易懂,专业名词也太多!不要怕,万事开头难!好好准备,入了门就好了!
1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学 分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配 根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源 通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计 人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真 随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究 生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。 10, 生物图像 没有血缘关系的人,为什么长得那么像呢? 外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合? 有什么生物学基础?基因是不是相似?我不知道,希望专家解答。 11, 其他 如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
谁一个、、论文不才交么……生物信息在生物学研究中的作用。生物信息是指生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广,除遗传物质、神经电冲动和激素之外,生物体发出的声音、气味、颜色以及生物的行为本身都含有信息,都对生物的个体和群体产生影响,和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。从历史上看,首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(现在称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。 关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,现在已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息,加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此,神经信息对于有机体的生存以及正常生活起着至关重要的作用。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。生物信息在生物研究中有重要作用,然而,原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此,生物信息学便是生物信息在生物研究中重要应用。 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。 生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。
一, 生物信息学发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用.经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础.正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然.2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域.生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计[2].了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿.二, 生物信息学的主要研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.1,序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义[3]:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和GENSCAN,Splice Alignment等等.4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因Paralogous: 相同种族,不同功能的基因Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.8, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.三, 生物信息学与机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效[4].机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能[5].机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.四, 生物信息学的数学问题生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1, 统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,如图1:图1 两组同心圆的数据集图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2, 度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.五, 几种统计学习理论在生物信息学中应用的困难生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论[8],Kolmogorov复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.六, 讨论与总结人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法:Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力.毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列以及相关的内容,我们还有相当长的路要走.(来源 ------[InfoBio.org | 生物信息学研讨组])生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。
生物信息学我有来头
生物信息学是一门非常先进的科学,就业前景是很广阔的,适合于各行各业,如果学的好的话,会非常有发展。
学科:理学- 生物科学类说明:生物科学类共 4 个专业,生物信息学专业在生物科学类中排名 第2名 ,在理学大类36个专业中排名 第6位。本专业学生毕业后可在各级生物信息学的研究机构、高等学校、企事业单位以及在研究和成果产业化过程中涉及到生物信息学的相关部门,从事科学研究、教学和管理工作。
谁一个、、论文不才交么……生物信息在生物学研究中的作用。生物信息是指生物体中包含的全部信息,如基因组信息、蛋白质、核酸、糖类等生物大分子的结构等。生物信息对生物体的生存、繁殖都起着重要作用。生物信息包含的范围很广,除遗传物质、神经电冲动和激素之外,生物体发出的声音、气味、颜色以及生物的行为本身都含有信息,都对生物的个体和群体产生影响,和生物的生存与进化密不可分。生物信息的特点是消耗极少的能量和物质即可产生极大的生物效应。生物信息一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。从历史上看,首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(现在称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。 关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,现在已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。生物靠神经系统电脉冲和神经递质携带和传递。神经系统的功能是接收、传递内外环境中的信息,加以处理、分析,从而控制和调节机体各部功能,对环境作出适当的反应。因此,神经信息对于有机体的生存以及正常生活起着至关重要的作用。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。生物信息在生物研究中有重要作用,然而,原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。因此,生物信息学便是生物信息在生物研究中重要应用。 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。生物信息学研究对象是生物信息。其研究重点主要体现在基因组学和蛋白学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学作为基因组研究的有力武器,被广泛地用来加快新基因的寻找过程,以达到将“有用”新基因抢先注册专利的目的。在这场世界范围内的竞争中,中国科学家以及科研资金投向的决策部门如何结合我国科研水平的现状、优势领域等客观情况将有限的投资投入以求获得最大可能的科学研究以及商业回报,是一个无法回避的新课题。 生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 综上所述,对生物信息的研究对生物学的蓬勃发展具有重要作用。
生物信息学专业,就业前景很广阔,目前国内此专业的人才还是比较欠缺的。科技的发展也必将推动生物信息学的发展。
这种最基本的东西没必要求论文啊,自己随便写写就好了,用个DNAMAN,随便挑个基因,分分钟搞出来。再者没人会拿这种东西单独去发一篇论文吧?这点东西根本不够资格,只够在某篇论文里的两句话的分量。
1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学 分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配 根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源 通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计 人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真 随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究 生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。 10, 生物图像 没有血缘关系的人,为什么长得那么像呢? 外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合? 有什么生物学基础?基因是不是相似?我不知道,希望专家解答。 11, 其他 如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
给你两个网站吧,里面有些范文
把你的邮箱告诉我,我给你发过去
CD44分子生物学特性及肿瘤关系的研究进展1 粘附分子CD44的研究进展 CD44是分布极为广泛的细胞表面跨膜糖蛋白,在淋巴细胞,成纤维细胞表面均能检测到它的表达[1,2]。CD44蛋白属于未分类的粘附分子,其正常功能是作为受体识别透明质酸(HA)和胶原蛋白Ⅰ、Ⅳ等,主要参与细胞-细胞,细胞-基质之间的特异性粘连过程。 1.1 CD44基因的定位与结构 人类CD44基因位于11号染色体短臂上,有20个高度保守的外显子,完整基因组在染色体DNA上大约跨越50kb。CD44基因的外显子按表达方式分为两种类型:一种是组成型外显子,另一种是V区变异型外显子。组成型外显子有10个,其中转录片段存在于所有CD44转录子中。仅含组成型外显子的CD44转录子,称为标准型CD44(CD44S),它编码361个氨基酸(Aa)。V区外显子也有10个,在基因组上位于第5和第6个组成型外显子之间,在染色体DNA中专25kb。含有V区外显子的CD44转录子统称为CD44拼接变异体(CD44V)。V区外显子的拼接方式非常特殊,它们既能以连续方式拼接,也能以跳跃方式拼接,参与拼接的V区外显子多少不一,从而使转录片段长短不一。目前通过PCR技术在许多细胞系中已发现10多种CD44V。早期发现血细胞的CD44分子(CD44H)为标准型。最先获得克隆的拼接变异体是含有CD44V8-10的CD44V,它主要存在于上皮细胞又称为上皮细胞型CD44V(CD44E)。目前对CD44的研究较多,如V3、V5、V6。 1.2 CD44分子的结构特征 从已知的cDNA序列推测,CD44S由341个Aa组成,N-末端起台于21位Aa,前面20个Aa为信号肽,紧接着是胞质外区域的248个Aa,第249个Aa至269位的21个是疏水性的,为跨膜区,其后是胞质内C-末端尾部有72个Aa。另外还有一种CD44S的短尾形式,其胞质内C-末端尾部仅3个Aa。这种Aa序列具有Ⅰ类膜蛋白的特征。Lokeshwar等[3]用实验观察CD44S分子的合成过程,发现CD44分子首先被合成43KD的蛋白前体,接着在内质网内进行N-糖基化,形成58KD的N-糖基化前体,其后在高尔基复合体内进行O-糖基化和其它翻译后修饰,形成最终的85-95KD分子。 1.2.1 CD44S胞质外结构域特征:CD44S分子信号肽的N-末端的130Aa内编码了5个Asn-x-Ser/Thr序列和6个半胱氨酸残基,前者是5个N-糖苷键连接位点,其中3个被利用。6个半胱酸形成3个二硫键,形成球形结构域,这一球形结构域的重要特征是与动物连接蛋白有较高的同源性。有两个区域与透明质酸结合,分别是21-45Aa,135-195Aa。 CD44S的胞外近膜区存在一个56Aa的结构域(161Arg-216Asp),含有19个ser和Thr残基,常以2~4个成簇,这些是已知的O-糖基化位点特征,表明CD44有7个潜在的O-糖基化位点,其中4~5个位点被利用。此外这一区域含有4个Ser-Gly二肽,是潜在的硫酸软骨素连接位点。并且已得到证实,CD44分子加上硫酸软骨素后,与其结合细胞外基质的能力有关,包括Ⅰ型胶原、层粘边蛋白、纤粘连蛋白。 CD44分子细胞膜外区域有多个潜在的N-糖苷键连接位点,可连换多个碳水化合物,不仅与分子成熟过程中的翻译后修饰有关,也与细胞的功能状态有关。糖基化赋予CD44分子异质性,而其异质性与不同的O-糖基化程度有关,这种现象是CD44分子所特有的。这种新的糖基化调节方式在CD44S结合不同的细胞外基质成分的能力方面超着重要作用。深入研究这一分子的糖基化调节机制及生物功能方面的联系是十分有意义的。 1.2.2 CD44S胞质内结构特征:CD44S分子第249-269跨膜区的Aa序列中存在一个半胱氨酸残基,代表着一个潜在的脂酰化位点,这一位点可与软脂酸连接导致CD44分子脂酰化。在CD44S的胞质内区域尾部存在一结构域可与锚蛋白(ankyntn)结合。胞质内尾部序列有5个保守的丝氨酸残基,可作为蛋白激酶C(PKC)的底物被磷化[4]。上述脂酰化过程均可增强CD44S分子与锚蛋白的结合能力。比较CD44S和其他G蛋白的序列发现存在4个 同源性高的区域,实验证实CD44还是一种GTP结合蛋白,可结合GDP底物并且有GTP酶活性,显著增强CD44与锚蛋白的相互作用[5]。在CD44合成过程的各种中间产物,发现均有锚蛋白结合位点和结合活性,提示糖基化对锚蛋白结合位点的形成无关,并且结合锚蛋白对于CD44分子的输送和信号传导功能起重要作用。 1.2.3 CD44V的特征:目前发现10个V外显子编码的氨基酸中有约30%的丝、苏氯酸残基,具有广泛潜在O-糖基化位点,如:V6具有潜在的O-糖基化位点。V3外显子序列分析中发现Ser-Gly-Ser-Gly片段,它可结合硫酸肝素,结合硫酸肝素后的CD44V能与碱性成纤维细胞生长因子(b-FGF)结合肝素的表皮生长(HBEGF)因子结合,此结果提示这种CD44参与了传递细胞因子的过程。 1.3 CD44蛋白的主要功能 CD44基因编码合成的CD44蛋白具有一系列功能,包括:①作为导向性受体,调节淋巴细胞在血液和淋巴液间的运行,即淋巴细胞归巢或再循环[6]。②在淋巴细胞自溶、离体淋巴细胞的活化中发挥作用。③促进成纤维细胞和淋巴细胞与胞外基质成分如透明质酸、硫酸软骨素、纤维素、糖原等的粘附。④参与信号传递蛋白可影响蛋白在细胞间的位置,刺激其分泌特异的生长因子具不同的传导作用。⑤结合并中和透明质酸,该作用类似于清除间质组织。⑥调节药物的吸收及细胞对药物的敏感性。 究竟是何种CD44蛋白参与了何种调节,至今不清楚,选择性剪切过程中的多样性CD44蛋白与细胞结合的多样性也表明其中有重要的协间或调节功能[7]。有研究认为,跨膜的CD44糖蛋白,其膜外成分的变异与细胞粘附及导向作用有关[8]。,而胞内分子的尾部则与活化T淋巴细胞的潜在作用有关,而且胞内分子长度可调节蛋白激酶A/C位置,影响细胞的信号传递[9]。 2 CD44分子在肿瘤细胞中的表达 1989年Stamenkevie等使用不同的单抗分离和克隆了一个编码CD44标准型的cDNA,该基因不仅由淋巴样细胞表达,也可由不同的癌细胞系包括实体瘤典型标本中表达。在裸鼠研究某些人的转移癌时发现,CD44基因表达在转移中起作用。在大鼠胰腺癌细胞中非转移性细胞株只表达标准CD44(CD44S),而转移性细胞株表达CD44V,而且将CD44V变异体cDNA转染到非转移性的细胞株可引起转移[10]。Hofmann[11]用 notherm印迹法研究了20多个体外培养的人癌细胞系,也发现许多肿瘤组织能表达CD44V,但在不同细胞中V区外显子的转录拼接模式不尽相同。第一份临床肿瘤标本(结肠癌)的检测结果是1992年由英国年津大学病理实验室的研究人员首先报道的,以后人们应用免疫组化及RNA-cDNA-PCR印迹杂交在肺癌、结肠癌、食道癌、乳腺癌、膀胱癌、肝癌、宫颈癌、肾癌和非何杰金淋巴瘤等中发现有CD44V表达。认为CD44V5、CD44V6的表达与肿瘤进展程度、转移及预后密切相关[12]。对于各种癌的实验研究已经进入肿瘤的发生、生长、转移增殖潜能及预后复发各环节与CD44分子表达的相关性,并提出实验数据和假说加以论证。 2.1 CD44分子与肿瘤的发生、生长、发展 癌的发生发展与癌基因(c-erb2、c-myc, ras)和抑癌基因(P53,nm23)等异常表达有关。有研究表明CD44异常表达可早于ras、P53等基因的异常,所以CD44的变异可能与ras部基因激活有关,是癌形成的一个因素[13]。Muider[14]对结肠癌肿瘤P53突变和CD44蛋白的研究,在结肠肿瘤各期中观察到有统计显著性的P53、CD44V6表达增强的趋势,P53和CD44V6表达间有显著相关性。P53被认为监视基因突变的“分子警察”,失活的P53可引起失控的肿瘤生长,因此P53突变引起失去最后控制时,V6‘表型获得明显的生长优势’。郭亚军等[15]用抗CD44的单抗以阻断其与透明质酸的结合,从而抑制CD44阳性的肿瘤细胞在体内的生长。他推测肿瘤细胞的生长可能是CD44阳性的细胞能与细胞外基质(ECM)中的透明质酸结合,从而获得附着性,并更易从ECM中获得生长因子。FasanoM等[16]报道成人非肿瘤患者肺泡Ⅰ型上皮不表达CD44V6。Ⅱ型上皮细胞和基 底细胞有CD44V6低量表达,Ⅱ型细胞与基底细胞属于干细胞,估计CD44V6对于肺生长有重要意义。所以认为CD44V6对于幼稚细胞生长和对于肿瘤细胞生长的机理可能相似。Lu等[17]发现在宫颈腺癌,无论是原位癌还是浸润癌均有CD44S弥漫表达,且浸润癌比原位癌明显高表达CD44S,几乎所有的原位癌与浸润癌CD44V9均增加,仅有较少的浸润癌表达CD44V4与CD44V6,而原位癌几乎不表达。说明宫颈上皮的癌变与CD44S和几种CD44V表达的量变和质变有关。 2.2 分子表达与肿瘤的转移、侵润 Matsumura等[18]用PCR技术检测了转移性结肠癌、非转移性结肠癌、正常结肠粘膜的CD44基因表达活性,发现转移性结肠癌细胞CD44变异拼接外显子表达明显增强。Pales等[19]用单克隆抗体检测以CD44表达情况发现,在人类结肠癌标本中,CD44V在浸润和转移的肿瘤中呈阳性表达,并认为CD44V的表达可作为结肠肿瘤浸润的标志。Herrtich[20]研究发现在一些分化不良的息肉中检测以V6外显子在肿瘤浸润中有增强的高频率表达,推测表达CD44V6的肿瘤细胞能够有利于癌细胞浸润和转移的条件。 Granberg等[21]发现在支气管类癌瘤患者,表达CD44S可减低远距离转移,CD44V77-8阳性肿瘤降低远距离转移风险,CD44V9阳性可降低远距离转移及死亡,而CD44V4、CD44V5、CD44V10与临床结果无关,证明支气管类癌瘤具有潜在恶性,CD44S、V7-8、V9阳性可能引起较好的临床结果,可以考虑作为预后评估的指标。 关于CD44V与肿瘤转移相关性的假说如下:激活的淋巴细胞和转移的癌细胞具有许多共性,即都有很强的侵出行为,均有可逆的粘附接触过程进行细胞迁移,在引流淋巴结中两类细胞皆能大量积聚和快速增殖,最后它们都能释放到循环系统,并通过外渗作用进入周围组织,这些相似性很可能基于CD44V6在二者中的共同作用,提示CD44V6在淋巴细胞活化中的作用机理与CD44V6在肿瘤转移中作用机理是相同的。即CD44V6高表达的癌细胞可能获得淋巴细胞“伪装”,逃避人体免疫系统的识别和杀伤,更易进入淋巴结,形成转移[10]。 有结论认为CD44V6变异体可能通过促进癌细胞与血管内皮细胞和细胞外基质的粘附,促进肿瘤细胞向基质侵袭,从而影响肿瘤细胞的迁移和运动能力。也有结论认为CD44V6可能通过影响癌细胞的骨架构像和分布,从而影响癌细胞的运动能力,而影响癌转移。 3 CD44分子对治疗肿瘤的展望 因为CD44V6对于肿瘤的发生、发展都有一定的相关性,推测CD44V6与肿瘤的分型、分化、分期有一定关系,如果这种关系得以明确,我们就可以通过癌组织CD44V6的表达程度来判断癌的类型,所处时期来进行适当治疗。 有研究认为CD44V6的表达要先于抑癌基因的表达,如果能够检测出CD44异常表达,则对于癌的早期诊断有密切关系。已有研究表明,CD44V6可用于诊断。如1997年吴忠等报道,应用RT-PCR技术检测CD44V6在30例尿液标本脱落细胞检测到CD44V6的表达,而在膀胱炎患者和正常志愿者未检测到CD44V6的表达。 肿瘤的转移是癌症患者的主要死亡原因,Seiter等[10]用抗CD44变异型蛋白的抗体与CD44变异型产物相结合,显示鼠癌细胞的转移潜能被终止,这也为大肠癌的治疗提供了又一个可能途径。 手术切除的肿瘤标本中如有CD44V6蛋白阳性,常会伴术后肿瘤再发或远处转移。CD44V6可作为一种有效的癌预后的标志物,用以指导治疗方案的制定。 CD44基因及其选择性剪切在癌的预测、早期诊断、病情进展、转移潜能与预后的估计等方面具有很大的潜在价值。随着分子生物学不断的发展,癌基因研究的不断深入,相信该基因对癌的预测、诊断、治疗、预后的价值会得到更加全面的认识。
不足之处是操作复杂,成本较高。以上分子生物学方法对结核杆菌...www.wsdxs.cn/html/yaoxue/20080316/6125.html
21世纪生命科学的研究进展和发展趋势 20世纪后半叶生命科学各领域所取得的巨大进展,特别是分子生物学的突破性成就,使生命科学在自然科学中的位置起了革命性的变化。很多科学家认为,在未来的自然科学中,生命科学将要成为带头学科,甚至预言21世纪是生物学世纪,虽然目前对这些论断还有不同看法,但勿庸置疑,在21世纪生命科学将继续蓬勃发展,生命科学对自然科学所起的巨大推动作用,决不亚于19世纪与20世纪上半叶的物理学。假如过去生命科学曾得益于引入物理学、化学和数学等学科的概念、方法与技术而得到长足的发展,那么,未来生命科学将以特有的方式向自然科学的其他学科进行积极的反馈与回报。当21世纪来临的时候,一些有远见的科学家、思想家与政治家将日益严重的诸多人类社会问题,如人口、地球环境、食物、资源与健康等重大问题的解决,莫不寄希望于生命科学与生物技术的进步。 2· 08·生命科学将成为21世纪自然科学的带头学科 20世纪50年代DNA双螺旋结构模型的发现,随后遗传信息传递“中心法则”的确立与DNA重组技术的建立使生命科学的面貌起了根本性的变化。分子生物学与遗传学的结合将用10一15年测定出人类基因组30亿个碱基对(遗传密码)的全序列,人体细胞约有10万个基因。人类基因组的“工作草图”迄今20%的测序已达99.99%的准确率和完成率,今后将要继续发现与阐明大量新的重要基因,诸如控制记忆与行为的基因,控制细胞衰老与程序性死亡的基因,新的癌基因与抑癌基因,以及与大量疾病有关的基因。将利用这些成果去为人类健康服务。 70年代后,分子生物学的发展,以基因工程为代表的生物工程的出现,生物技术通过对DNA链的精确切割与有目的地重组,使有目的地改良生物的性状与品质成为可能。迄今生物工程所取得的成就已在生产上显示出诱人的前景,尽管还存在有不少争议的问题,但很有可能成为21世纪的新兴产业。 发育生物学将要快速地兴起,它将要回答无数科学家100多年来孜孜以求而未解决的重大课题,一个受精卵通过细胞分裂与分化如何发育成为结构与功能无比复杂的个体,阐明在个体发育中时空上有条不紊的程序控制机理,从而为人类彻底控制动植物生长、发育创造条件。 RNA分子既有遗传信息功能又有酶功能的发现,为数十年踏步不前的难题“生命如何起源”的解决提供了新的契机。在21世纪,人们还要试图在实验室人工合成生命体。人们己有可能利用生物技术将保存在特殊环境中的古生物或冻干的尸体的DNA扩增,揭示其遗传密码,建立已绝灭生物的基因库,研究生物的进化与分类问题。 神经科学的崛起,预示着生命科学又一个高峰的来临。脑是含有1011细胞的无比复杂的高级结构体系,21世纪初从分子到行为水平的各个层次对脑功能的研究都将有重大突破,在阐明学习。记忆。思维。行为与感情机理等方面也将有重大进展。脑机能在理论上的进展将会促进新一代智能计算机的研制,这可能成为未来生命科学对自然科学与技术科学回报的最好例子。 生态学可能是最直接为人类生存环境服务并对国民经济持续与协调发展起重要作用的科学。生态学的理论与实践为中国三峡水库建设提供的决策依据就是一个例证。保护生物的多样性是当前生命科学最紧迫的任务之一。据可靠的数据说明每天约有100多种生物在地球上绝灭,很多生物在没有被人类认识以前就已消亡,这对人类无疑是一种灾难。生态学与生物多样性保护与利用的研究成果将指导人类遵循自然规律积极保护自己生存环境,否则人类的物质文明与精神文明都要受到灾难性影响。 顺应生命科学迅速发展的形势,发达国家政府及一些国际组织先后提出了《国际地圈及生物圈计划》、《人类基因组作图与测序计划》、《人类前沿科学计划》、《脑的十年》及《生物多样性利用与保护研究》等投资巨大的生命科学研究计划。其中仅《人类基因组作图与测序计划》,一项预算就高达30亿美元。 由于生命科学的发展,人才的需求量激增,近年除越来越多的物理学家,化学家与技术科学家被吸引到生物学研究领域外,以美国为例,近年统计48万博士学位获得者中从事生命科学的占51%。优秀青年科学家流向生命科学前沿,这是21世纪生命科学欣欣向荣的动力与源泉。 2. 08. 2 21世纪初生命科学的重大分支学科和发展趋势 80年代有远见的生物学家把分子生物学(包括分子遗传学)、细胞生物学、神经生物学与生态学列为当前生物科学的四大基础学科,无疑是正确地反映了现代生命科学的总趋势。遗传学(主要是分子遗传学)不仅当前是生物科学的带头学科,在今后多年还将保持其在生命科学中的核心作用。 有些科学家早就预测到,由于分子生物学、细胞生物学与遗传学的结合,必然促进发育生物学的蓬勃发展,从而提出发育生物学将成为21世纪生命科学的“新主人”,这种预测已逐渐变为现实。 分子生物学(包括分子遗传学)在生命科学中的主流地位,以及它在推动整个生命科学发展中所起的巨大作用是无可争辩的。细胞是生命活动基本的结构与功能单位,细胞生物学作为生物科学的基础学科地位必须给予重视。 很多生物科学家认为神经科学或脑科学的崛起将代表着生命科学发展的下一个高峰,然后将促进认知科学与行为科学的兴起。 生态学可能是最直接为人类生存环境服务,井对国民经济持续与协调发展起重要作用的学科。 A.分子生物学 分子生物学是在分子水平上研究生命现象本质与规律的学科。核酸与蛋白质(有人认为还有糖)是生命的最基本物质,因此核酸与蛋白质结构与功能的研究今后仍然是分子生物学研究的主要内容。蛋白质是生命活动的主要承担者,几乎一切生命活动都要依靠蛋白质(包括酶)来进行。蛋白质分子结构与功能的研究除了要阐明由氨基酸形成的并有一定顺序的肽链结构外,今后将特别重视肽链拆叠成的特定的三维空间结构,因为蛋白质生物功能与它的空间构型关系极为密切,核酸是遗传信息的携带者与传递者,遗传信息由DNA~RNA一蛋白质的传递过程,称为遗传信息传递的“中心法则”,是分子生物学(分子遗传学)研究的核心。其基本问题己比较清楚,当前研究的重点是: ①约经10一15年,人类基因组30亿个碱基对全序列(遗传密码)可以测出,这是具有里程碑意义的工作; ②真核生物基因表达过程在各层次上调节的研究仍然是今后相当长一段时间的任务。 分子生物学的概念、方法与技术和各学科的渗透,正在形成很多新的学科,诸如分子遗传学、细胞分子生物学、神经分子生物学、分子分类学、分子药理学与分子病理学等等。因此分子生物学在生命科学中的主导作用还将要持续下去。 B.遗传学 遗传学比分子生物学更具有自己独立的学科体系。但现代遗传学与分子生物学是不可分割、相互交叉的两个学科,且很难截然分开。 有些著名的遗传学家把遗传学概括称为基因学,因为现代遗传学主要是研究生物体遗传信息传递与表达的学科。基因携带的信息是由基因的结构所决定,信息的表达是由基因的功能实现的,因此遗传学研究的是基因的结构与功能。从遗传学的角度看,所有生命现象的机制,追根究底都会与基因的结构与功能相关。因此遗传学在今后较长时间仍然是生命科学的核心学科和推动力。 有人估计人体细胞内约有10万个基因,迄今弄清楚的不到5%,所以与重要生命活动有关与疾病有关的新基因的发现与阐明将是今后几十年的重要任务。 C.细胞生物学 著名生物学家威尔逊(Wilson)早在20世纪20年代就提出一句名言“一切生物学关键问题必须在细胞中找寻”,至今还有着很深的内涵。魏斯曼与摩尔根都曾先后试图在细胞研究的基础上建立遗传、发育与进化统一的理论,虽然当时没有找到具体解决的途径,但关于细胞的知识在生物科学中的重要性是显而易见的。细胞是一切生命活动结构与功能的基本单位,细胞生物学是研究细胞生命活动基本规律的科学,细胞的结构。细胞代谢、细胞遗传、细胞的增殖与分化,细胞信息的传递与细胞的通讯等是细胞生物学主要研究内容。虽然今后细胞生物学研究的内容是全方位的,但概括起来可能是两个基本点: 一是基因与基因产物如何控制细胞的重要生命活动,如生长、增殖、分化与衰老等,在此要涉及到一个全新的问题,细胞内外信号如何传递;二是基因产物一一蛋白质分子与其他生物分子如何构建与装配成细胞的结构,并行使细胞的有序的生命活动。 今后20多年,以下一些问题可望取得重要进展与突破: ①遗传信息的储存、复制与表达的主要执行者——染色体的结构与功能可能在不同的结构层次上得到阐明。 ②细胞骨架(包括核骨架与染色体骨架)的研究将得到全方位的进展。 ③细胞生物学与分子生物学、遗传学的结合,将在细胞分化机理研究方面有重要突破,为发育生物学快速发展奠定基础。 ④细胞衰老与细胞程序化死亡的机理将在更深层次上阐明。 ⑤以细胞分子生物学为骨干学科与其他学科结合,人工装配生命体的理想可能逐步 实现。 D.发育生物学 从一个受精卵通过细胞分裂与分化如何发育成为一个结构与功能复杂的个体,是至今未能解决的生命科学的重大课题,也是发育生物学的主课题。由于近几十年分子生物学、遗传学与细胞生物学所取得一一系歹(突破性成果与知识的积累,已为解决这一重大课题创造了条件,这也就是今后发育生物学应运而飞速发展的原因。 发育生物学当今要解决的基本问题是细胞的基因如何按一定的时空关系选择性地表达专一性的蛋白质,从而控制细胞的分化与个体发育。阐明基因在多层次水平上控制胚胎的发育就不仅是涉及到个别基因的问题,而是一系列调节基因在时空上的联系与配合,从而支配发育的程序。虽然这是难度极大的课题,但近年已初见端倪并有所突破。估计今后发育生物学将沿着这条道路深入下去,并可望取得丰硕的成果。 E.神经科学(或脑科学) 神经科学是研究人与动物神经系统(主要是脑)的结构与功能,在分子水平、神经网络水平、整体水平乃至行为水平阐明神经系统特别是脑的活动规律的学科群。脑的结构与功能是无比复杂的高级体系,含有10 11细胞。它是感觉、运动、学习、记忆、感情、行为与思维的活动基础。大脑细胞,口何指导人与动物的行为是未来生物学中最富潜力与最吸引人的领域;神经科学的崛起,预示着生命科学又有一个高峰的来临。神经科学或脑科学必然在下世纪促进认知科学与行为科学的兴起。因此各国政府投入巨资支持这一课题,包括美国总统签署的“命名1990年1月1日为脑的10年”不是没有道理的。 在今后几十年内可以预示到的神经科学突破性的进展可能包括: ①在分子到行为的各层次上阐明学习、记忆与认知等活动的基础; ②很快会发现与阐明一系列与记忆、行为有关的基因与基因产物; ③神经细胞的分化与神经系统的发育研究会有重大进展; ④脑机能在理论上的进展与突破(如模式识别、联想记忆、思维逻辑机理的阐明)会 促进新一代智能计算机与智能机器人的研制; ⑤一系列神经性疾病与精神病的病因可望在神经生物学研究中得到解释。 F.主态学(包括物种多样性保护研究) 生态学是研究有机体与周围环境——包括非生物环境与生物环境相互关系的科学。 由于生态学理论与应用是与世界环境保护。资源合理开发与保护,以至人类本身在地球上继续生存紧密相关的,尤其是地球环境日益恶化的情况下,生态学的重要性就变得十分突出。未来生态学的主要任务是协调人类活动与环境的关系。所以生态学经典学科的概念与研究内容必然要适应人类生存环境的保护与社会经济持续发展的要求而不断改变。 今后生态学研究的重点可能表现在以下方面: ①生态群落的多样性、稳定性与演变规律与人类活动的关系; ②全球气候变化对生态系统结构与功能的影响; ③生物多样性的保护和永续利用也是保护人类自身生存环境尤其是拯救濒临绝灭的 生物种类更加具有紧迫性; ④城市生态学与经济生态学将迅速发展; ⑤生态工程与生态技术将在国民经济建设中发挥作用。 G.空间生命科学 空间环境向生命科学提出了新的挑战,也为生命科学的发展提供了机遇。 21世纪人类的空间活动将要离开地球附近,探索月球及其他太阳系的大体。这就要求人在地球外各种环境中能长期地生活和工作,首先是在,长期空间飞行器中航行,月球站以及火星或火卫站等,空间医学必须有重大突破,解决长期在地外空间所遇到的宇航员骨质疏松,肌肉萎缩和兔疫功能变化等生理学难题,同时,与开拓大疆相关联的是受控生态系统,创造一个不需要外界补给,而使人们能在其中长期生活的环境。这些问题有希望在21世纪20一30年代解决,其中空间生理学问题有可能利用中医和中药的方法取得某些重大突破。 地球外层空间为研究重力生物学提供了理想的条件,重力条件对各种层次结构生物的影响仍然是21世纪重力生物学的主题,今后的研究重点将集中于细胞,绿色植物,一些微生物和小动物。特别是重力环境对哺乳动物细胞形态、结构、变异和基因表达的影响将是一个热点。重力生物学的学术意义在于揭示重力效应在生物进化过程中的作用,是自然科学的基本问题;另一方面,重力生物学的成果将是空间制药及空间生态系统等应用领域的基础,重力生物学的学术和应用都是下个世纪的重要课题,可望在21世纪20-30年代取得突破性的进展。 地外生物探索是生命起源的重大课题,其中地球以外的智能生物探索是一个长期的 课题。地球上的人类正在向外层空间发射电波和接收讯号。外星人与地球人之间可能存在的学术和技术差距不仅是一种危险,也是自然科学的重大前沿问题,将被持续地研究下去。 2. 08. 5 21世纪初生命科学最有可能突破的领域 ①人类基因组的全序列(遗传密码)将在10一15年测定完毕,为全部遗传信息的破译奠定基础。 ②与生命活动有关的重要基因与重要疾病有关的基因将被陆续发现,其中特别引人注目的是控制记忆与行为的基因、控制衰老与细胞程序性死亡的基因、控制细胞增殖的系列基因、胚胎发育多层次网络调节基因。新的癌基因与抑癌基因的发现与其生物学功能的释明将大大提高对生命本质的了解。 ③人与动物的高级生命活动:感知、思维、记忆、行为与感情的发生与活动机制在脑科学研究突破的基础上,有更深的认识。 ④癌症的治疗将有全面的突破,爱滋病的防治得到控制。 ⑤在阐明地球上原始生命起源的基础上,人类还可能在实验室合成生命体,这种生命体应具有原始细胞的基本特征。