词条 | FP-growth |
释义 | 2000年,由Han Jiawei等人提出了一种新的频繁项集挖掘算法FP-growth,它彻底地脱离了Apriori算法必须产生候选项集的传统方式,建立了基于FP-tree结构的不产生候选项集的思想,开辟了关联规则挖掘的新思路。 Han等人用一种压缩的数据结构(FP-tree)存储关联规则挖掘所需的全部数据信息,通过对源数据库的两次扫描,将数据信息存到这种结构里,避开了产生候选项集的步骤,极大的减少了数据交换和频繁匹配的开销,并且将数据库频繁模式的挖掘问题转化成挖掘FP-tree的问题。因此,在挖掘效率上FP-growth算法明显优于Apriori算法,特别是在稠密数据库中,频繁项集的长度很大的情况下,FP-growth算法的优势越明显。FP-growth算法的缺点是需要递归生成条件数据库和条件FP-tree,因此内存开销大,它也只能挖掘单维的布尔关联规则。 FP-growth算法使用一种紧缩的数据结构来存储查找频繁项目集所需要的全部信息。将提供频繁项目集的数据库压缩到一颗频繁模式树(或FP树),但保留项集关联信息;然后,将压缩后的数据库分成一组条件数据库,每个关联一个频繁项目集。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。