本科毕业论文生物信息学

5个回答默认排序

默认排序

按时间排序

华兰欣子

已采纳

应该可以吧。。。

262 评论 1小时前发布

吾ci吾ci5757

1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因；Paralogous: 相同种族,不同功能的基因；Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。目前来看，其研究内容包括生物系统的模拟（Curr Opin Rheumatol，2007，463-70），系统稳定性分析（Nonlinear Dynamics Psychol Life Sci，2007，413-33），系统鲁棒性分析（Ernst Schering Res Found Workshop， 2007，69-88）等方面。以SBML（Bioinformatics，2007，1297-8）为代表的建模语言在迅速发展之中，以布尔网络（PLoS Comput Biol，2007，e163）、微分方程（Mol Biol Cell，2004，3841-62）、随机过程（Neural Comput，2007，3262-92）、离散动态事件系统等（Bioinformatics，2007，336-43）方法在系统分析中已经得到应用。很多模型的建立借鉴了电路和其它物理系统建模的方法，很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题（Anal Quant Cytol Histol，2007，296-308）。当然，建立生物系统的理论模型还需要很长时间的努力，现在实验观测数据虽然在海量增加，但是生物系统的模型辨识所需要的数据远远超过了目前数据的产出能力。例如，对于时间序列的芯片数据，采样点的数量还不足以使用传统的时间序列建模方法，巨大的实验代价是目前系统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMC Bioinformatics，2007，339）、聚类分析（Qual Life Res，2007，1655-63）等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘（partial least squares，PLS）等特征空间的压缩技术。在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。 10, 生物图像没有血缘关系的人，为什么长得那么像呢？外貌是像点组成的，像点愈重合两人长得愈像，那两个没有血缘关系的人像点为什么重合？有什么生物学基础？基因是不是相似？我不知道，希望专家解答。 11, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.

360 评论 7小时前发布

jessica0707

生物信息学推荐系统设计关键词：推荐系统；生物信息学推荐系统(RecommenderSystem)[1]是个性化信息服务的主要技术之一，它实现的是“信息找人，按需服务”；通过对用户信息需要、兴趣爱好和访问历史等的收集分析，建立用户模型，并将用户模型应用于网上信息的过滤和排序，从而为用户提供感兴趣的资源和信息。生物信息学(Bioinformatics)[2,3]是由生物学、应用数学和计算机科学相互交叉所形成的一门新型学科；其实质是利用信息科学的方法和技术来解决生物学问题。20世纪末生物信息学迅速发展，在信息的数量和质量上都极大地丰富了生物科学的数据资源，而数据资源的急剧膨胀需要寻求一种科学而有力的工具来组织它们，基于生物信息学的二次数据库[4]能比较好地规范生物数据的分类与组织，但是用户无法从大量的生物数据中寻求自己感兴趣的部分（著名的生物信息学网站NCBI(美国国立生物技术信息中心)，仅仅是小孢子虫(Microsporidia)的DNA序列就达3399种），因此在生物二次数据库上建立个性化推荐系统，能使用户快速找到自己感兴趣的生物信息。特别是在当前生物信息数据量急剧增长的情况下，生物信息学推荐系统将发挥强大的优势。1推荐系统的工作流程应用在不同领域的推荐系统，其体系结构也不完全相同。一般而言，推荐系统的工作流程[5]如图1所示。(1)信息获取。推荐系统工作的基础是用户信息。用户信息包括用户输入的关键词、项目的有关属性、用户对项目的文本评价或等级评价及用户的行为特征等，所有这些信息均可以作为形成推荐的依据。信息获取有两种类型[6]，即显式获取(Explicit)和隐式获取(Implicit)，由于用户的很多行为都能暗示用户的喜好，因此隐式获取信息的准确性比显式高一些。(2)信息处理。信息获取阶段所获得的用户信息，一般根据推荐技术的不同对信息进行相应的处理。用户信息的存储格式中用得最多的是基于数值的矩阵格式，最常用的是用m×n维的用户—项目矩阵R来表示，矩阵中的每个元素Rij=第i个用户对第j个项目的评价，可以当做数值处理，矩阵R被称为用户—项目矩阵。(3)个性化推荐。根据形成推荐的方法的不同可以分为三种，即基于规则的系统、基于内容过滤的系统和协同过滤系统。基于规则的推荐系统和基于内容过滤的推荐系统均只能为用户推荐过去喜欢的项目和相似的项目，并不能推荐用户潜在感兴趣的项目。而协同过滤系统能推荐出用户近邻所喜欢的项目，通过用户与近邻之间的“交流”，发现用户潜在的兴趣。因此本文所用的算法是基于协同过滤的推荐算法。(4)推荐结果。显示的任务是把推荐算法生成的推荐显示给用户，完成对用户的推荐。目前最常用的推荐可视化方法是Top－N列表[7]，按照从大到小顺序把推荐分值最高的N个事物或者最权威的N条评价以列表的形式显示给用户。2生物信息学推荐系统的设计综合各种推荐技术的性能与优缺点，本文构造的生物信息学推荐系统的总体结构如图2所示。生物信息学推荐系统实现的主要功能是在用户登录生物信息学网站时，所留下的登录信息通过网站传递到推荐算法部分；推荐算法根据该用户的用户名从数据库提取出推荐列表，并返回到网站的用户界面；用户访问的记录返回到数据库，系统定时调用推荐算法，对数据库中用户访问信息的数据进行分析计算，形成推荐列表。本系统采用基于近邻的协同过滤推荐算法，其结构可以进一步细化为如图3所示。算法分为邻居形成和推荐形成两大部分，两部分可以独立进行。这是该推荐系统有别于其他系统的优势之一。由于信息获取后的用户—项目矩阵维数较大，使得系统的可扩展性降低。本系统采用SVD矩阵降维方法，减少用户—项目矩阵的维数，在计算用户相似度时大大降低了运算的次数，提高了推荐算法的效率。(1)信息获取。用户对项目的评价是基于用户对某一个项目(为表示简单，以下提及的项目均指网站上的生物物种)的点击次数来衡量的。当一个用户注册并填写好个人情况以后，系统会自动为该用户创建一个“信息矩阵”，该矩阵保存了所有项目的ID号以及相应的用户评价，保存的格式为：S+编号+用户评价，S用于标记项目，每个项目编号及其评价都以“S”相隔开；编号是唯一的，占5位；用户评价是用户点击该项目的次数，规定其范围是0~100，系统设定当增加到100时不再变化。这样做可防止形成矩阵时矩阵评价相差值过大而使推荐结果不准确。(2)信息处理。信息处理是将所有用户的信息矩阵转换为用户—项目矩阵，使用户信息矩阵数值化，假设系统中有M个用户和N个项目，信息处理的目的就是创建一个M×N的矩阵R，R[I][J]代表用户I对项目J的评价。(3)矩阵处理。协同过滤技术的用户—项目矩阵的数据表述方法所带来的稀疏性严重制约了推荐效果，而且在系统较大的情况下，它既不能精确地产生推荐集，又忽视了数据之间潜在的关系，发现不了用户潜在的兴趣，而且庞大的矩阵增加了计算的复杂度，因此有必要对该矩阵的表述方式做优化，进行矩阵处理。维数简化是一种较好的方法，本文提出的算法应用单值分解(SingularValueDecomposition，SVD)技术[8]，对用户—项目矩阵进行维数简化。(4)相似度计算。得到降维以后的用户矩阵US，就可以寻找每个用户的近邻。近邻的确定是通过两个用户的相似度来度量的。本文采用Pearson相关度因子[9]求相似度。(5)计算用户邻居。该方法有两种[10]，即基于中心的邻居(Center－BasedNeighbor)和集合邻居(AggregateNeighbor)。本系统采用了第一种方法，直接找出与用户相似度最高的前N个用户作为邻居，邻居个数N由系统设定，比如规定N＝5。(6)推荐形成。推荐形成的前提是把当前用户的邻居ID号及其与当前用户的相似度保存到数据库中，而在前面的工作中已找出各用户的邻居以及与用户的相似度，推荐形成部分只需要对当前登录用户进行计算。推荐策略是：对当前用户已经访问过的项目不再进行推荐，推荐的范围是用户没有访问的项目，其目的是推荐用户潜在感兴趣的项目；考虑到系统的项目比较多，用户交互项目的数量很大，所以只筛选出推荐度最大的N个项目，形成Top－N推荐集，设定N＝5。3生物信息学推荐系统的实现生物信息学推荐系统的实现可以用图4来表示。数据库部分主要存储用户信息和项目信息，用SQLServer2000实现。数据访问层实现了与用户交互必需的存储过程以及触发器，也使用SQLServer2000，主要完成以下功能：初始化新用户信息矩阵；插入新项目时更新所有用户的信息矩阵；用户点击项目时更新该用户对项目的评价；删除项目时更新所有用户的信息矩阵。用户访问层主要涉及网页与用户的交互和调用数据访问层的存储过程，在这里不做详细的介绍。推荐算法完成整个个性化推荐的任务，用Java实现。(1)数据连接类DataCon。该类完成与SQLServer2000数据库的连接，在连接之前必须要下载三个与SQLServer连接相关的包，即、和。(2)数据操作类DataControl。该类负责推荐算法与数据库的数据交换，静态成员Con调用()获得数据库连接，然后对数据库进行各种操作。把所有方法编写成静态，便于推荐算法中不创建对象就可以直接调用。(3)RecmmendSource与CurrentUserNeighbor。这两个类作为FCRecommand类的内部类，RecmmendSource用于保存当前用户的推荐列表，包括推荐项目号和推荐度；CurrentUserNeighbor用于保存邻居信息，包括邻居ID号、相似度及其访问信息。(4)协同过滤推荐算法FCRecommand。该类实现了整个推荐算法，主要分为邻居形成方法FCArithmetic和推荐形成方法GenerateRecommend。下面给出方法FCArithmetic的关键代码：Matrixuser_item=();//获取用户—项目矩阵user_item=(user_item);//调用SVD降维方法Vectorc_uservector=newVector();//当前用户向量Vectoro_uservector=newVector();//其他用户向量Vectorc_user_correlate_vector=newVector();//当前用户与其他用户之间相似度向量for(inti=0;ifor(intj=0;((i,j));//1.获得当前用户向量for(intk=0;();for(intl=0;((k,l));//2.获得其他用户的向量//3.计算当前用户与其他用户的相似度usercorrelativity=(c_uservector,o_uservector);(usercorrelativity);}//4.根据当前用户与其他用户的相似度，计算其邻居(i,c_user_correlate_vector);}根据邻居形成方法FCArithmetic，可以得到每个用户的邻居。作为测试用例，图6显示用户Jack与系统中一部分用户的相似度，可以看出它与自己的相似度必定最高；并且它与用户Sugx访问了相同的项目，它们之间的相似度也为1，具有极高的相似度。4结束语在传统推荐系统的基础上，结合当前生物信息学网站的特点，提出一个基于生物信息平台的推荐系统，解决了传统生物信息网站平台信息迷茫的缺点，为用户推荐其感兴趣物种的DNA或蛋白质序列。优点在于协同过滤的推荐算法能发现用户潜在的兴趣，能促进生物学家之间的交流；推荐算法的邻居形成与推荐形成两部分可以单独运行，减少了系统的开销。进一步的工作是分析生物数据的特点及生物数据之间的关系，增加用户和项目数量，更好地发挥推荐系统的优势。参考文献：［1］PAULR，[J].CommunicationsoftheACM，1997,40(3):56－58.[2]陈新.生物信息学简介[EB/OL].(2001)..[3]林毅申,林丕源.基于WebServices的生物信息解决方案[J].计算机应用研究,2005,22(6):157－158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次数据库建立及应用[J].计算机系统应用,2004(11):58－60.

164 评论 12小时前发布

芊芊百合Y0Y

不知道，生物信息学，比较难

166 评论 12小时前发布

李鸿章大杂烩

最好先阅读几篇相应文章和相今似的论文，比如你的课题是油菜，你可以搜有关其他物种如小麦的。根据论文写作步骤制定实验计划。要练习使用一些常用软件，如NCBI,GenBank,在用时最好先下载安装有道词典，因为是英文网站，不容易懂，专业名词也太多！不要怕，万事开头难！好好准备，入了门就好了！

120 评论 12小时前发布

本科毕业论文生物信息学

5个回答 默认排序 默认排序 按时间排序

相关问答

毕业论文

向你推荐

热门问题

5个回答默认排序

默认排序

按时间排序