词条 | 进化树 |
释义 | 进化树,英文Evolutionary Trees。在生物学中,用来表示物种之间的进化关系,又称“系统树”、“系谱树”。生物分类学家和进化论者根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。在进化树上每个叶子结点代表一个物种,如果每一条边都被赋予一个适当的权值,那么两个叶子结点之间的最短距离就可以表示相应的两个物种之间的差异程度。从进化树中还可看出:生物进化有一个规律,都是从水生到陆生,从低等到高等,从简单到复杂。有相关图书一册。 概述分子钟的发现对于进化研究具有十分重要的意义。它不仅能用于粗略估计不同类群生物间的进化时间,亦可用于构建进化树。实际上,分子钟发现不久,蛋白质序列分析即被广泛用于生物的长时进化研究。 根据蛋白质的序列或结构差异关系可构建分子进化树(evolutionary tree)或种系发生树(phylogenetic tree)。进化树给出分支层次或拓扑图形,它是产生新的基因复制或享有共同祖先的生物体的歧异点的一种反映,树枝的长度反映当这些事件发生时就存在的蛋白质与现在的蛋白质之间的进化距离。根据进化树不仅可以研究从单细胞有机体到多细胞有机体的生物进化过程,而且可以粗略估计现存的各类种属生物的分歧时间。通过蛋白质的分子进化树分析,为从分子水平研究物种进化提供了新的手段,可以比较精确的确定某物种的进化地位。对于物种分类问题,蛋白质的分子进化树亦可作为一个重要的依据。 构建进化树的方法包括两种:一类是序列类似性比较,主要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。 序列进化树构建序列进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。 建立数据模型建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如何处理容易引起歧义的比对区域和插入/删除序列(即所谓的indel状态或者空位状态)。 一个典型的比对过程包括:首先应用CLUSTALW程序,然后进行手工比对,最后提交给一个建树程序。这个过程有如下特征选项:(1)部分依赖于计算机(也就是说,需要手工调整);(2)需要一个先验的系统发育标准(即需要一个前导树);(3)使用先验评估方法和动态评估方法(推荐)对比对参数进行评估;(4)对基本结构(序列)进行比对(对于亲水氨基酸,推荐引入部分二级结构特征);(5)应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析方法。 决定取代模型取代模型既影响比对,也影响建树;因此需要采用递归方法。对于核酸数据而言,可以通过取代模型中的两个要素进行计算机评估,但是对于氨基酸和密码子数据而言,没有什么评估方案。其中一个要素是碱基之间相互取代的模型;另外一个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计算机程序可以对较复杂的变量(比如,位点特异性或者系统特异性取代模型)进行评估,同样,现有的建树软件也不可能理解这些复杂变量。 建树方法三种主要的建树方法分别是距离、最大节约(maximum parsimony, MP)和最大似然(maximum likelihood,ML)。最大似然方法考察数据组中序列的多重比对结果,优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大的概率导致考察的多重比对结果。距离树考察数据组中所有序列的两两比对结果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步骤去解释多重比对中的碱基差异。 距离方阵方法简单的计算两个序列的差异数量。这个数量被看作进化距离,而其准确大小依赖于进化模型的选择。然后运行一个聚类算法,从最相似(也就是说,两者之间的距离最短)的序列开始,通过距离值方阵计算出实际的进化树,或者通过将总的树枝长度最小化而优化出进化树。用最大节约方法搜索进化树的原理是要求用最小的改变来解释所要研究的分类群之间的观察到的差异。最大似然方法评估所选定的进化模型能够产生实际观察到的数据的可能性。进化模型可能只是简单地假定所有核苷酸(或者氨基酸)之间相互转变的概率一样。程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每一个这样的序列产生实际数据的可能性(如果两个姐妹分类群都有核苷酸“A”,那么,如果假定原先的核苷酸是“C”,得到现在的“A”的可能性比起假定原先就是“A”的可能性要小得多)。所有可能的再现(不仅仅是比较可能的再现)的几率被加总,产生一个特定位点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值。 进化树搜索单一的进化树的数量会随着分类群数量的增长而呈指数增长,从而变为一个天文数字。由于计算能力的限制,现在一般只允许对很小一部分的可能的进化树进行搜索。具体的数目主要依赖于分类群的数量、优化标准、参数设定、数据结构、计算机硬件以及计算机软件。 有两种搜索方法保证可以找到最优化的进化树:穷举法和树枝 跳跃法(BB)。对于一个很大的数据集,这两种方法都很不实用。对分类群数量的限制主要取决于数据结构和计算机速度,但是对于超过20个分类群的数据集,BB方法很少会得到应用。穷举法要根据优化标准,对每一个可能的进化树进行评估。BB方法提供一个逻辑方法,以确定那些进化树值得评估,而另一些进化树可被简单屏蔽。因此BB方法通常要比穷举法快得多。 绝大多数分析方法都使用“启发式”的搜索。启发式现搜索出相近的次优化的进化树家族(“岛屿”),然后从中得到优化解(“山顶”)。不同的算法用不同程度的精确性搜索这些岛屿和山顶。最彻底也是最慢的程序(TBR,tree bisection-reconnection,进化树对分重接)先把进化树在每一个内部树枝处劈开,然后以任意方式将劈开的碎片重新组合起来。最快的算法只是检查一下相邻终端的不太重要的重新组合,因此倾向于找到最近的岛屿的山顶。 降低搜索代价的最好方法是对数据集进行剪除。影响优化搜索策略选择的因素(数据量,数据结构,时间量,硬件,分析目的)太复杂,无法推荐一个简单可行的处方。因此进行搜索的用户必须对数据非常熟悉且有明确的目标,了解各种各样的搜索程序及自己硬件设备和软件的能力。 除上述当前应用最广的方法外,还有大量的建立和搜索进化树的其它方法。这些方法包括Wagner距离方法和亲近方法(距离转化方法);Lake的不变式方法(一个基于特征符的方法,它选择的拓扑结构包含一个意义重大的正数以支持颠换);Hadamard结合方法(一个精细的代数方阵方法,对距离数据或者观察到的特征符进行修正);裂解方法(这个方法决定在数据中应该支持哪一个基于距离的可选的拓扑结构);四重奏迷惑(Quartet puzzling)方法可以为ML建树方法所应用,这个算法相对而言是个较快的进化树搜索算法。 确定树根上述的建树方法所产生的都是无根树(进化树没有进化的极性)。为了评估进化假说,通常必须要确定进化树的树根。确定系统发育进化树的树根并不简单问题。一种确定树根的好方法就是分析时加入一个复制的基因。如果来自绝大多数物种或者所有物种的所有的平行基因在分析时都被包含进去,那么从逻辑上我们就可以把进化树的树根定位于平行基因进化树的交汇处,当然要假定在所有进化树中都没有长树枝问题。 评估进化树和数据现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实验);对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参数自引导和对折方法)。似然比例实验可以对取代模型和进化树都进行评估。 结构进化树随着X-ray、NMR等实验技术的的进步,蛋白质结构数据的数量日益增多,结构精度也越来越高,使得结构比较更为可行。目前已经发现许多蛋白的一级序列差异很大,难以通过序列比对进行分子进化的研究,但它们的空间拓扑结构仍然很相似,可以进行结构叠合比较、分析它们之间的进化关系,这表明结构比较可以比序列比较获得更多更精确的结构信息。研究发现蛋白质结构比序列的保守性更强,进化过程中蛋白质序列可能发生变化,但它的折叠模式更为保守,即使是70%的序列发生变化,它的折叠模式也不会有很大的改变。蛋白质分子的结构比较与蛋白质一级序列比较法相比,具有更高的优越性。 目前有关蛋白质结构比较的研究方法很多,主要有刚体结构叠合比较、多特征的结构比较等方法。前者用比较后确定的拓扑等价位点的个数或等价位点Cα原子距离的均方根值作为不同结构间差异性的量度(结构进化树);后者用蛋白质结构的多项特征如残基的物理特性、残基的空间倾向性、主侧链的方向、主链的二面角、二级结构类型和主侧链的可接近性等综合指标作为结构的差异性量度,有时称此类方法构建的结构进化树为“类结构”进化树。 刚体叠合所构建的进化树适用于同源蛋白质结构预测的骨架结构的选择,基于序列的进化树便于描述类似性较大的蛋白质的进化关系,而结构的多特征比较则适用于分析分歧较大的蛋白质结构。 刚体结构叠合比较当已知2个以上同源蛋白质的晶体结构时,可将每两套结构的原子坐标进行最佳叠合,确定类似结构中完整的一套残基等价位点,并使等价位点间的距离平方和最小,这样便得到各结构的拓扑等价区。通常将结构简化为一系列Cα位置,等价位点被定义为在重叠结构中位于某个特定距离范围(不大于3埃)之内的Cα原子。通过计算不同结构等价位点的个数或计算多个结构的等价位点Cα距离的均方根值作为不同结构间差异性的度量。再根据一般的建树方法,给出几个结构的进化关系。 刚体结构叠合方法需要蛋白质的晶体结构数据的质量要高。事实上,相对于序列而言,已测定的蛋白质晶体结构很少,许多同源蛋白质的结构并不知道。其次,尽管同源蛋白质具有相同的折叠结构,它们的二级结构成分则经历形变、相对平移和旋转使侧链达到优化的包装以适应进化的压力。对于序列相同率为30%的两个蛋白质,由刚体叠合所确定的拓扑等残基的均方根差大约为1.5埃,而且残基数可能只占全部残基数的1/3。它可能不足以进行结构比较。因此需要发展一种更灵活的确定拓扑等价位点的方法,并且要把二级结构成分的相对运动和变形也考虑进去。 多特征结构比较相关软件 Phylip PHYLIP是一个包含了大约30个程序的软件包,这些程序基本上囊括了系统发育的所有方面。PHYLIP是免费软件,并且可以在很多平台上运行(Mac, DOS, Unix, VAX/VMS, 及其它)。PHYLIP目前已经是最广泛使用的系统发育程序。 图书信息书名: 进化树 作 者:(白俄)什帕科夫斯基 ,郭越红 译 出版社: 中国科学技术出版社 出版时间: 2010-5-1 ISBN: 9787504656018 开本: 16开 定价: 96.00元 内容简介本书适用于对创新感兴趣或从事创新活动的广大读者。如设计师、工程师、工科院校从事创新活动的大学生,致力于开发新产品、提高产品竞争力的企业领导者、商人等。 本书对专利代理人而言也是很有趣的读物。专利代理人在处理专利信息和技术信息时经常会遇到如何高效组织信息、分析信息的问题。因为专利查寻得到的信息通常具有以下特点:是对同一个技术系统不同实施方案的描述。 现有的信息组织方法有一些缺点,因此我们创造了一种对专利信息进行分类的新方法,即把信息组织成为进化树。通常用反映技术系统进化实质和规律的路线构建进化树。书中给出了主要的技术系统进化路线,并附有实例。 为了确定最正确的进化路线,我们需要弄清楚以下问题: (1)哪一个技术系统模型是最正确的; (2)构建此模型,技术系统是怎样发展的,在此过程中系统组件是怎样变化的; (3)如何将我们构建的技术系统模型与目前最先进的分类系统(专利法规)进行对应。 书中不仅对如何构建基础的、抽象的进化树作了描述,还以构建显示器的进化树为例。对如何构建具体的、实际技术系统的进化树进行了说明。 运用进化树查询、分析、处理信息的好处显而易见。分析问题时,我们可以对“信息场”预先做标记,增强已获信息间的相关性。进化树中展现的信息具有直观性和客观性,便于人们更容易地分析信息。根据书中讲述的专业方法,人们在分析阶段就可以把进化树的树枝填充好。借助于结构性类比法及其他创新方法,进化树也能帮助我们得到新的点子和技术解决方案。 本书单独讲述了进化树实际应用的两种主要情况:规避竞争者专利和预测技术系统发展,并附有实例分析。如专利规避的例子:洗衣机柔顺剂供给装置。此外书中还有很多其他实例。 作者简介本书的作者是TRIZ咨询专家,在解决复杂技术问题的理论和实践方面具有丰富的经验,曾与俄罗斯、美国、韩国、瑞士、斯洛伐克及其他国家的许多生产企业有过合作。其中值得注意的是他和三星公司的长期合作。三星公司是世界上生产电子产品、半导体、显示器、家用电器的主要厂家之一,一贯推行积极的创新政策。三星公司意识到发明工作至关重要,尽力组织学习解决技术问题的方法,并创造条件使这些方法能够在实践中得到应用。作者为三星公司完成了不同技术领域的多个复杂技术项目,并取得了丰硕的成果:仅在合作的前两年内,合作完成的项目就为三星获得了9000多万美元的利润。 目前作者在TRIZ—PROFI咨询公司工作,该公司由俄罗斯大工业家、经济学博士维克多·尼古拉耶维奇·巴图林创办。 解决生产问题的实践经验让作者明白了:在解决实际问题的过程中怎样独立地或者综合地运用TRIZ和其他创新方法。他弄清了:为从复杂的初始问题情境中找出关键问题,需要哪些工具以及按照怎样的次序来运用这些工具;如何正确地得到最终的技术方案,使其推广后为公司带来利润。 实施创新项目时经常需要规避竞争对手的专利,或者对公司产品的发展作出预测。因此,本书的任务之一就是用TRIZ工具描述所研究的技术系统及其组件的各种实现方案。作者既独立地,也和参与本书工作的彼得·邱克辛和叶列娜·诺维茨卡娅一起,进行了理论研究,形成了新的方法。某些研究成果在著名计算机软件《Techoptimizer>>(技术优化器)中得到了应用。 总之,本书描述了基于进化树处理技术信息和专利信息的方法。毫无疑问,该方法的价值在于:它总结了作者解决实际问题的经验和在技术系统进化领域中的研究成果。 图书目录总序 中文版序 原书序 第一章 结构化信息 第一节 信息处理 第二节 最佳信息结构模型的构建要求 第二章 客观的进化路线 第一节 将信息组织成进化路线 第二节 技术系统实例分析 第三节 系统的主要组件 第四节 功能技术系统的进化 第五节 技术系统的主要进化路线 第六节 建立、使用进化路线的特点 第三章 构建进化树 第一节 基本功能:怎样描述? 第二节 基础进化树、具体进化树 第三节 构建进化树的规则 第四节 构建显示器的进化树 第四章 应用进化树 第一节 寻找信息、做标记 第二节 分析结构化的信息 第三节 产生新的信息 第四节 专利规避的新可能性 第五节 有效预测技术系统 后记 致谢 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。