王帅的硕士毕业论文

2个回答默认排序

默认排序

按时间排序

末末很烦躁

已采纳

第27 卷第9 期2009 年9 月河南科学HENAN . 2009收稿日期：2009-04-15基金项目：国家自然科学基金项目（50323001）作者简介：陈红梅（1973－），女，河南虞城人，讲师，硕士研究生，主要研究方向为计算数学.文章编号：1004-3918（2009）09-1108-03基于同源建模的蛋白质结构预测方法的研究陈红梅，周俊祥（商丘师范学院计算机科学系，河南商丘476000）摘要：针对profile-profile 方法中profile 中出现的数据稀疏问题所采用的数据平滑技术以及对于生成排列过程中对于新的计分体系所采用的动态规划算法，并且在HOMSTRAD 数据库上进行的排列精度实验，结果证明采用profile-profile 方法并结合数据平滑和动态规划技术可以有效地提高查询序列和目标序列的排列精度.关键词：蛋白质结构预测；同源建模；数据平滑中图分类号：O 24 文献标识码：A生物信息学作为一门新的学科，它把基因组DNA 序列分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计. 因此在生物信息学的研究中，确定蛋白质序列的功能也就成为一个重要的方向. 但是在目前已知的蛋白质序列数据库中，已经根据实验测出其结构和功能的蛋白质只占其中的小部分，远远无法满足实际应用的需要，于是开发自动处理未知蛋白质序列的方法成为一个越来越重要的问题.1 蛋白质结构预测过程不同来源或者不同生物功能的蛋白质可能有相似的结构，通常认为序列相似意味着结构相似. 因此，同源建模法[1-2]就是利用结构已知的家族成员（模板）预测新序列的结构. 同源建模法一般包含以下几个步骤：第一，识别模拟的模板；第二，目标序列和模板序列的排列；第三，构建模型；第四，构建非保守的loop 区；第五，安装侧链；第六，模型修饰；第七，结构合理性评估.本文重点讨论的内容是采用数据平滑技术提高目标序列和模板序列的排列精度，以及对两种数据平滑算法精度的实验数据分析.2 目标序列和模板序列的排列2．1 排列过程概述在查询序列和目标序列的排列[3]这个过程中，通过局部对比排列搜索工具BLAST 获得了查询序列的模板，这里我们将要采用引入进化信息的profile-profile 方法[4]完成双序列的排列. 首先，通过识别模板的过程，获得两个输出的频度profile 和对数profile；接着，在处理中运用数据平滑技术对频度profile 中出现的数据稀疏进行平滑并获得频率profile；然后，通过获得的频率profile 以及对数profile 构建新的计分体系；再者，通过带有空位罚分的动态规划算法结合所构建的计分体系获得查询序列和目标序列的排列；最后，在HOMSTRAD 数据库中，测试查询序列和目标序列的排列的精度并且做出详细的分析.2．2 Profile-profile 比对方法为了提高相关联蛋白质的检测质量，对于查询序列以及模板序列引入进化信息是一种经常被应用的方法. Profile-profile 比对方法就是这样一种将序列之间的进化信息考虑在内的一种方法. 在具体应用Profileprofile比对方法时，不同的profile-profile 方法的本质区别在于如何计算两个profile 位置之间的分数，其中profile 是一个向量集，每个向量包含了多序列比对中每种氨基酸在多序列比对的一个特殊位置所出现的频度.2．3 数据平滑技术数据平滑技术[5]是自然语言处理中的重要方法. 对于汉语统计语言模型的构造技术，其研究目的在于：2009 年9 月通过对大规模真实语料库中的词的上下文同现频度进行统计，获取词的上下文同现概率数据. 对于基于词的N-gram 模型来说，根据最大似然估计原则（Maximum Likelihood Estimation），词的上下文条件概率p（wi│wi-1i-N+1）被估计为如公式（1）所示： p（wi│wi-1i-N+1）= c（wi i-N+1）wi∑wi i-N+1，（1）其中：c（wi i-N+1）表示词串wi i-N+1在训料文本T 中的出现次数.基于以上数据平滑技术的介绍，并结合蛋白质结构预测中的profile-profile 方法所生成的频率profile 和对数profile，本文选择了加法数据平滑和Good-Turing 数据平滑技术.2．3．1 加法平滑Lidstone，Johnson 和Jeffreys 等人提出了一种简单易行的数据平滑方法，称作加法平滑（additiveSmoothing）. 它的基本思想是：为了避免零概率问题，将N-gram 模型中每个N 元对的出现次数加上一个常数δ（0<δ≤1），相应的N-gram 模型参数padd（wi│wi-1i-N+1）计算公式如（2）所示：padd（wi│wi-1i-N+1）= c（wi i-N+1）+δwi∑（wi i-N+1）+δ│V│. （2）2．3．2 数据平滑的具体应用结合蛋白质结构预测中的profile-profile 方法所生成的频率profile 和对数profile，这里主要是基于profile 中的20 个氨基酸的频度进行的，这里本文假设这20 个氨基酸之间是相互独立的. 因此这里我们的模型参数空间为20. 并分别采用两种数据平滑将频度profile 进行平滑，而后生成我们所需要的频率．4 动态规划技术在生物信息学中，通常使用动态规划算法来获得两个序列的比对，在这里采用带有空位罚分的动态规划算法来获取目标序列和模板序列的排列.在这里我们假定采用空位罚分[6]，y（g）=-d-（g-1）e，其中：d 为gap-open；e 为gap-extension. 通常在这里e＜d.空位罚分也对应于一个比对的概率统计模型，对于一个给定的序列，在特殊的位置出现空位的概率是空位长度的函数f（g）与所插入残基概率的乘积，如公式（3）所示：P（gap）= f（g）i in gap 仪qxi，（3）公式（4～7）有一个前提条件，就是假设空位的长度与它所包含的残基类型无关. 这种情况下，当要将空位出现的概率转化为对数值进行考虑时，很显然，这里的qxi可以忽略不计，可以得出如公式（4）所示：y（g）=log（f（g）），（4）这样，空位罚分就对应于空位长度概率的对数值了，在计算空位罚分时就可以将罚分值累加求和得到总的罚分值了.于是我们将有如下算法描述：M（i，j）=maxM（i-1，j-1）+s（xi，yj），Ix（i-1，j-1）+s（xi，yj），Iy（i-1，j-1）+s（xi，yj）仪仪仪仪仪仪仪仪仪仪仪仪仪；Ix（i，j）=maxM（i-1，j）-d，Ix（i-1，j）-e 仪； Iy（i，j）=maxM（i，j-1）-d，Iy（i，j-1）-e 仪；其中：xi代表查询序列中第i 个氨基酸；yj代表模板序列中第j 个氨基酸；s（xi，yj）代表序列中将查询序列中第i个氨基酸和模板序列中第j 个氨基酸相比对的分数；Ix（i，j）代表在模板序列的第j 个位置插入空位时，查询序列第i 个氨基酸和此空位相比对时两序列的最大分数值；Iy（i，j）代表在查询序列的第i 个位置插入空位时，模板序列第j 个氨基酸和此空位相比对时两序列的最大分数值；M（i，j）代表长度为i 的查询序列和长度为j 的模板序列比对的分数值.2．5 实验结果为了对采用profile-profile 方法获得的目标序列和模板序列的排列结果有一个评价，本文在HOMSTRAD陈红梅等：基于同源建模的蛋白质结构预测方法的研究-1109-河南科学第27卷第9期数据库中选取了629 对蛋白质序列比对作为标准排列，将采用profile-profile 方法获得的目标序列和模板序列的排列与其进行比较获得排列的精度作为评价的指标. 蛋白质序列的排列精度也就是蛋白质目标序列排列与蛋白质序列标准排列相比较，排列正确的氨基酸位置所占的百分比. 如公式（5）所示：排列精度=排列正确的比对个数模板序列长度. （5）实验数据分析比较：采用加法平滑时，在其中的平滑参数δ 取值不同会得到不同的平滑效果. 我分别对δ 取0．1，0．25，0．5，0．75，1 这5 个参数时进行实验，获得629 组数据，并抽取30 组数据如图1 所示.通过图1 可以看出，在测试出的排列精度中，参数δ 取0．1，0．25，0．5，0．75 时，他们的精度平均值在δ 取0．1 时稍大些，而当δ 取1 时，获得的效果最好.在测试出的排列精度中，加法平滑（δ 取1）时获得的效果比未平滑要稍微好一些. 这说明采用的加法平滑算法（δ 取1）对于解决profile 中存在的数据稀疏问题还是有帮助作用的. 在对氨基酸出现频度进行平滑时，加法平滑（δ 取1）获得的结果还是有明显的提高的.3 结束语本文首先讨论了基于同源建模的蛋白质结构预测的基本方法，分析了基于同源建模的profile-profile 方法与传统方法的差别，并介绍了蛋白质结构预测在生物信息学研究中的地位与作用. 随后文中依次分别介绍了模板识别、查询序列与目标序列的排列、构建模型以及结构合理性评估的方法与具体的实现过程.本文重点介绍了查询序列与目标序列排列的全过程，而后分别介绍了排列过程中所用到的profile-profile方法、数据平滑技术以及排列的动态规划算法. 最后介绍了排列精度的实验部分，这里分别对加法平滑取不同参数的实验数据进行了比较与分析. 最终得出了在加法平滑（δ 取1）时所获得的排列精度最大.参考文献：〔1〕蒋毅恒，白焰，朱耀春，等．基于遗传编程的智能建模方法及应用〔J〕．微计算机信息，2008（3）：150-152.〔2〕 Dayhoff M O，Hunt L T，Schwartz R M． Protein superfamilies〔J〕． Atlas of Protein Sequence and Structure，1978，5（3）：9-24.〔3〕 Jason T L，wang Q，Wu H． Application of neural networks to biological data mining：a case study in protein sequence classification〔C〕//Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Boston，2000：305-309.〔4〕程凌鹏，张景强．伊蚊C6/36 细胞浓核病毒蛋白衣壳三维结构的测定〔J〕．中国科学：C 辑，2004，34（1）：75-79.〔5〕王志珍．蛋白质折叠和分子伴侣〔J〕．生物学通报，2004，39（5）：1-6.〔6〕靳利霞，唐焕文．蛋白质结构预测方法简述〔J〕．自然杂志，2001，23（4）： Researqch of Protein StructureBased on Homologous ModellingChen Hongmei， Zhou Junxiang（Department of Computer Science，Shangqiu Normal College，Shangqiu，476000，Henan China）Abstract：Data smooth we use in order to solve data sparseness in profile of profile-profile method and dynamicprogramming algorithm of new scoring system in the process of alignment． And the experiment of alignmentprecision tested in database HOMSTRAD． We improve the precision of alignment between query sequence andtarget sequence effectively by words：protein structure prediction； homologous modeling； data smoothing图1 不同参数加法平滑排列精度 Alignment precision of addition smoothingfor different 0001 3 5 7 9 11 13 15 17 19 21 23 25 27 29参数取参数取参数取参数取1参数取

119 评论 1小时前发布

吃客5588

王帅，男，汉族，1979年6月15日出生，河南南阳人，中共党员，博士，副研究员。2002年毕业于郑州大学，获得学士学位；2007年毕业于中国科学院兰州化学物理研究所，获得博士学位，同年留所参加工作，2009年晋升为副研究员。主要研究方向为分离分析科学、天然药物化学和油田化学基础。

191 评论 2小时前发布

王帅的硕士毕业论文

2个回答 默认排序 默认排序 按时间排序

相关问答

毕业论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序