词条 | 概念层次树 |
释义 | 定义概念层次树(Concept Hierarchy Tree)是数据库中备属性值和概念依据抽象程度不同而构成的一个层次结构,是属性的一种概括语义描述。 性质树中高层概念是底层概念的概括,树根是该属性的可能属性值的最一般描述,树叶是该属性的可能属性值,如果属性是连续值属性(或叫模糊属性),则树叶是一些连续值范围。 应用目前常用的各类数据挖掘算法,主要用于特征规则、关联规则、分类规则、序贯模式的发现,但将这些算法用于实际的大型数据库进行知识发现,却不能取得很好的效果。 概念层次树作为数据分类的方法,可以将大量详细的细节数据总结上升到较高的概念层,为数据挖掘的各个步骤提供背景知识,提高知识的准确性和可理解性。适合用户需要较高层次的、能反映一定关系的规则来支持决策的实际应用,此外可用于对数据预处理得到清洁的元数据及知识表示。 生成概念层次树可由领域内的专家提供,但在实际评估中,因为数据规模很大,协调专家之间的意见非常困难,人工定义大型的概念层次树亦不合理、不现实,且提供的概念层次树可能是最一般的概念层次树,常包含全部可能的属性值以及它们对应的全部可能的父概念。这种概念树对于特定的数据库显得偏大,并且影响到概念提升的速度,因而缺乏一定的灵活性和针对性。通常,无论是领域专家定义还是自动生成概念层次树,概念层次树的构造有自顶向下和自底向上两种方式。 对于数据库中常常存在各种数值型属性的情况,一般采用自动生成数值型概念层次的概念化方法:由用户指定期望的分段数,由机器自学习,将属性值分成若干个区间。该方法可满足大型数据库中特殊挖掘任务的要求,它能针对特殊挖掘任务的要求构造专门的概念层次,反映特殊数据集合中的数据分布。 对数值型字段数据的概念化,就是将字段中的所有数据进行概念分段,将每一段用一个概念值表示,然后将原字段中的所有数据用它所对应的概念段的概念值来代替,产生概念表。 一般的数值型概念层次生成算法都是通过将数值型属性的值域区间离散化,形成多个子区间作为概念层次的叶节点,基本方法有等距离区间法和等频率区间法。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。