词条 | 发育同源蛋白 |
释义 | 生物信息生物信息学的一个基本观点是:分子的结构决定分子的性质和分子的功能。因此,生物大分子蛋白质的空间结构决定蛋白质的生物学功能。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠后,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是,决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢? 经验方法所谓经验性方法就是根据一定序列形成一定结构的倾向进行结构预测,例如,根据不同氨基酸形成特定二级结构的倾向进行结构预测。通过对已知结构的蛋白质(如蛋白质结构数据库PDB、蛋白质二级结构数据库DSSP中的蛋白质)进行统计分析,可以发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规则。 与经验性方法相似的另一种办法是结构规律提取方法,这是更一般的方法。该方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。有许多提取结构规律的方法,如通过视觉观察的方法,基于统计分析和序列多重比对的方法,利用人工神经网络提取规律的方法。 原理同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。其原理基于下述事实:每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说,具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列具有25~30%的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。这样,如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结构域区域相似,则可以认为目标蛋白质具有相同的结构域或者功能区域。在蛋白质结构预测方面,预测结果最可靠的方法是同源模型化方法。 对比蛋白质的同源性比较往往是借助于序列比对而进行的,通过序列比对可以发现蛋白质之间进化的关系。在蛋白质结构分析方面,通过序列比对可以发现序列保守模式或突变模式,这些序列模式中包含着非常有用的三维结构信息。利用同源模型化方法可以预测10~30%蛋白质的结构。然而,许多具有相似结构的蛋白质是远程同源的,它们的等同序列不到25%。也就是说,具有相似空间结构的蛋白质序列等同程度可能小于25%。这些蛋白质的同源性不能被传统的序列比对方法所识别。如果通过一个未知序列搜索一个蛋白质序列数据库,并且搜索条件为序列等同程度小于25%的话,那么将会得到大量不相关的蛋白质。因此,搜索远程同源蛋白质就像在干草堆里寻找一根针。寻找远程同源蛋白质是一项困难的任务,处理这项任务的技术称为“线索(THREADING)技术”。对于一个未知结构的蛋白质,仅当我们找不到等同序列大于25%的已知结构的同源蛋白质时,才通过线索技术寻找已知结构的远程同源蛋白质,进而预测其结构。找到一个远程同源蛋白质后,就可以利用远程同源建模方法来建立蛋白质的结构模型。如果既没有找到一般的同源蛋白质,又没有找到远程同源蛋白质,那么如何进行结构预测呢?一种可行的办法就是充分利用现有数据库中的信息,包括二级结构和空间结构的信息,首先从蛋白质序列预测其二级结构,然后再从二级结构出发,预测蛋白质的空间结构;或者采用从头算方法进行结构预测。 数学模式从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原子,而大蛋白质(如载脂蛋白)的氨基酸个数超过4500。所有可能的序列到结构的映射数随蛋白质氨基酸残基个数呈指数增长,是天文数字。然而幸运的是,自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。因此,蛋白质结构预测是可能的。 蛋白质结构预测主要有两大类方法。一类是理论分析方法或从头算方法(Ab initio),通过理论计算(如分子力学、分子动力学计算)进行结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方法往往不合适。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小(1kcal/mol 数量级),二是蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是一个问题。 另一类蛋白质结构预测的方法是统计方法,该类方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是进行蛋白质结构预测较为成功的一类方法。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。