“ID3算法”的意思、由来-中文百科全书

背景知识

最早起源于《罗斯昆ID3在悉尼大学。他第一次提出的ID3 1975年在一本书、机器学习、研究所硕士论文，民国1号。ID3是建立了概念学习系统(CLS)算法。

基本CLS算法通过一组训练资料中C：

步骤1：如果所有实例在C是积极的,然后形成是的节点而停顿。

在C语言中，如果所有的情况下都是负面的，创造一个无节点而停顿。

选择一个特性，否则以F值v1、……越南，创造一个决策节点。

步骤2：隔断训练实例在C进入子集的C1，C2，…，Cn根据V的价值。

步骤3：将该算法的递归下降每集茨。

注意，训练员(专家)决定哪些特征选择。

在梳理ID3改善，添加了特征选择的启发。ID3搜索通过属性的训练资料中，分离出的属性，在给定的例子最好。如果属性的完全分类的训练集然后ID3停止的，否则它递归的运作就n(n =可能出现的数量在一个属性的值划分子集)去得到他们的“最好”的属性。该算法使用一种贪婪搜索，也就是说，它撷取最优属性，从不回首早些时候重新考虑自己的选择。

决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。

决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。

ID3算法

ID3算法是由Quinlan首先提出的。该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。以下是一些信息论的基本概念：

定义1：若存在n个相同概率的消息，则每个消息的概率p是1/n，一个消息传递的信息量为Log2(1/n)

定义2：若有n个消息，其给定概率分布为P=(p1,p2…pn)，则由该分布传递的信息量称为P的熵，记为

I(p)=-(i=1 to n求和)piLog2(pi)。

定义3：若一个记录集合T根据类别属性的值被分成互相独立的类C1C2..Ck，则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p)，其中P为C1C2…Ck的概率分布，即P=(|C1|/|T|,…..|Ck|/|T|)

定义4：若我们先根据非类别属性X的值将T分成集合T1,T2…Tn，则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到，即Info(Ti)的加权平均值为：

Info(X, T)=(i=1 to n 求和)((|Ti|/|T|)Info(Ti))

定义5：信息增益度是两个信息量之间的差值，其中一个信息量是需确定T的一个元素的信息量，另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量，信息增益度公式为：

Gain(X, T)=Info(T)-Info(X, T)

ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点，并以该节点的属性标记，对该属性的每个值创建一个分支据此划分样本.

一个nonincremental ID3算法,推导其阶级意义从一组固定的训练资料中。一个增量算法修改当前的概念界定,如果有必要,与一种新的样品。这个班由ID3是感应,那是,给定一小组训练资料中,特定的课程由ID3预计未来所有的情况下工作。未知的分布必须相同的测试用例。感应类无法证明工作在每种情况下,因为他们可以无限的情况下进行分类。注意,ID3(或任何可能misclassify归纳算法)数据。

数据描述

所使用的样本数据有一定的要求,ID3是:

描述-属性-值相同的属性必须描述每个例子和有固定数量的价值观。

预定义类-实例的属性必须已经定义的,也就是说,他们不是学习的ID3。

离散类-类必须是尖锐的鲜明。连续类分解成模糊范畴(如金属被“努力,很困难的,灵活的,温柔的,很软”都是不可信的。

足够的例子——因为归纳概括用于(即不可查明)必须有足够的测试用例来区分有效模式从机缘巧合。

属性选择

ID3决定哪些属性如何是最好的?一个统计特性,被称为信息增益,使用��得到给定属性衡量培训例子带入目标类分开。最高的信息(信息是最有益的分类)被选择。为了明确增益,我们首先借用一个主意从信息论叫做熵。熵措施信息的数量在一个属性。

词条	ID3算法
释义	背景知识 ID3算法(数据描述) 背景知识最早起源于《罗斯昆ID3在悉尼大学。他第一次提出的ID3 1975年在一本书、机器学习、研究所硕士论文，民国1号。ID3是建立了概念学习系统(CLS)算法。基本CLS算法通过一组训练资料中C：步骤1：如果所有实例在C是积极的,然后形成是的节点而停顿。在C语言中，如果所有的情况下都是负面的，创造一个无节点而停顿。选择一个特性，否则以F值v1、……越南，创造一个决策节点。步骤2：隔断训练实例在C进入子集的C1，C2，…，Cn根据V的价值。步骤3：将该算法的递归下降每集茨。注意，训练员(专家)决定哪些特征选择。在梳理ID3改善，添加了特征选择的启发。ID3搜索通过属性的训练资料中，分离出的属性，在给定的例子最好。如果属性的完全分类的训练集然后ID3停止的，否则它递归的运作就n(n =可能出现的数量在一个属性的值划分子集)去得到他们的“最好”的属性。该算法使用一种贪婪搜索，也就是说，它撷取最优属性，从不回首早些时候重新考虑自己的选择。决策树是对数据进行分类，以此达到预测的目的。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到训练集数据中，重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点，每个分支是一个新的决策结点，或者是树的叶子。每个决策结点代表一个问题或决策，通常对应于待分类对象的属性。每一个叶子结点代表一种可能的分类结果。沿决策树从上到下遍历的过程中，在每个结点都会遇到一个测试，对每个结点上问题的不同的测试输出导致不同的分支，最后会到达一个叶子结点，这个过程就是利用决策树进行分类的过程，利用若干个变量来判断所属的类别。 ID3算法 ID3算法是由Quinlan首先提出的。该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。以下是一些信息论的基本概念：定义1：若存在n个相同概率的消息，则每个消息的概率p是1/n，一个消息传递的信息量为Log2(1/n) 定义2：若有n个消息，其给定概率分布为P=(p1,p2…pn)，则由该分布传递的信息量称为P的熵，记为 I(p)=-(i=1 to n求和)piLog2(pi)。定义3：若一个记录集合T根据类别属性的值被分成互相独立的类C1C2..Ck，则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p)，其中P为C1C2…Ck的概率分布，即P=(\|C1\|/\|T\|,…..\|Ck\|/\|T\|) 定义4：若我们先根据非类别属性X的值将T分成集合T1,T2…Tn，则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到，即Info(Ti)的加权平均值为： Info(X, T)=(i=1 to n 求和)((\|Ti\|/\|T\|)Info(Ti)) 定义5：信息增益度是两个信息量之间的差值，其中一个信息量是需确定T的一个元素的信息量，另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量，信息增益度公式为： Gain(X, T)=Info(T)-Info(X, T) ID3算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点，并以该节点的属性标记，对该属性的每个值创建一个分支据此划分样本. 一个nonincremental ID3算法,推导其阶级意义从一组固定的训练资料中。一个增量算法修改当前的概念界定,如果有必要,与一种新的样品。这个班由ID3是感应,那是,给定一小组训练资料中,特定的课程由ID3预计未来所有的情况下工作。未知的分布必须相同的测试用例。感应类无法证明工作在每种情况下,因为他们可以无限的情况下进行分类。注意,ID3(或任何可能misclassify归纳算法)数据。数据描述所使用的样本数据有一定的要求,ID3是: 描述-属性-值相同的属性必须描述每个例子和有固定数量的价值观。预定义类-实例的属性必须已经定义的,也就是说,他们不是学习的ID3。离散类-类必须是尖锐的鲜明。连续类分解成模糊范畴(如金属被“努力,很困难的,灵活的,温柔的,很软”都是不可信的。足够的例子——因为归纳概括用于(即不可查明)必须有足够的测试用例来区分有效模式从机缘巧合。属性选择 ID3决定哪些属性如何是最好的?一个统计特性,被称为信息增益,使用��得到给定属性衡量培训例子带入目标类分开。最高的信息(信息是最有益的分类)被选择。为了明确增益,我们首先借用一个主意从信息论叫做熵。熵措施信息的数量在一个属性。
随便看	青岛佳诺实验台青岛佳欣数码科技有限公司青岛佳友包装机械有限公司青岛家教吧青岛家教网青岛家具街青岛家世界青岛加州风情酒店青岛架豆青岛尖锐湿疣网青岛兼职青岛兼职网青岛碱业股份有限公司青岛鉴诚知识产权代理有限公司青岛健民男科医院青岛健民医院青岛建秋西门子电梯有限公司青岛建设集团青岛建设技术学院青岛建银大酒店青岛建筑工程学院青岛建筑节能博览会青岛江创科技有限公司青岛江苏路小学青岛胶河源车继铃车缸车美萍车羽车耀东车耀先烈士车老板车肆车胎车胎自动补漏液车胜元车胤囊萤夜读车脚夫车腾芳车臣共和国车臣危机车臣大营救计算机计算机计算机专业计算机世界奖学金计算机二级考试计算机仿真技术计算机传真通信计算机信息检索