请输入您要查询的百科知识:

 

词条 C4.5
释义

由于ID3算法在实际应用中存在一些问题,于是Quinlan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 在树构造过程中进行剪枝;

3) 能够完成对连续属性的离散化处理;

4) 能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

具体算法步骤如下;

1创建节点N

2如果训练集为空,在返回节点N标记为Failure

3如果训练集中的所有记录都属于同一个类别,则以该类别标记节点N

4如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通的类;

5for each 候选属性 attribute_list

6if 候选属性是联系的then

7对该属性进行离散化

8选择候选属性attribute_list中具有最高信息增益的属性D

9标记节点N为属性D

10for each 属性D的一致值d

11由节点N长出一个条件为D=d的分支

12设s是训练集中D=d的训练样本的集合

13if s为空

14加上一个树叶,标记为训练集中最普通的类

15else加上一个有C4.5(R - {D},C,s)返回的点

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/27 17:07:15