词条 | C4.5 |
释义 | 由于ID3算法在实际应用中存在一些问题,于是Quinlan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。 C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。 具体算法步骤如下; 1创建节点N 2如果训练集为空,在返回节点N标记为Failure 3如果训练集中的所有记录都属于同一个类别,则以该类别标记节点N 4如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通的类; 5for each 候选属性 attribute_list 6if 候选属性是联系的then 7对该属性进行离散化 8选择候选属性attribute_list中具有最高信息增益的属性D 9标记节点N为属性D 10for each 属性D的一致值d 11由节点N长出一个条件为D=d的分支 12设s是训练集中D=d的训练样本的集合 13if s为空 14加上一个树叶,标记为训练集中最普通的类 15else加上一个有C4.5(R - {D},C,s)返回的点 |
随便看 |
|
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。