请输入您要查询的百科知识:

 

词条 s-粗集
释义

波兰数学家Z.Pawlak 在1982 提出的粗糙集(Rough Set) ,给出粗集的一般性研究,Z.Pawlak粗集是以R-元素等价类[x]定义的。Z.Pawlak粗集是一个具有静态特征的元素集合X∈U的粗集。

2002年史开泉对Z.Pawlak粗集做出改进,给出动态R-元素等价类的概念;提出了S-粗集(singular rough sets),S-粗集是以具有动态特性的R-元素等价类[x]定义的。S-粗集具有两类基本形式:单向S-粗集(one directions singular rough sets)单向S-粗集对偶(dual of one directions singular rough sets),双向S-粗集(two directions singular rough sets)S-粗集为动态数据挖掘-规律发现研究提供了理论支持。

粗集(rough set) 理论的特点是不需要预先给定某些特征或属性的数量描述, 如统计学中的概率分布,模糊集理论中的隶属度或隶属函数等,而是直接从给定问题出发,通过不可分辨关系和不可分辨类,确定问题的近似域,从而找出该问题中的内在规律。粗集理论同模糊集、神经网络、证据理论等其它理论均成为不确定性计算的一个重要分支。

粗集理论是根据目前已有的给定问题的知识,将问题的论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持, 即肯定支持此概念或不支持此概念。在粗集理论中,上述情况分别用3 个近似集合来表示正域、负域和边界。

在数据挖掘中,从实际系统采集到的数据可能包含各种噪声, 存在许多不确定的因素和不完全信息有待处理。传统的不确定信息处理方法,如模糊集理论、证据理论和概率统计理论等,因需要数据的附加信息或先验知识(难以得到),有时在处理大量数据的数据库方面无能为力。粗集作为一种软计算方法,可以克服传统不确定处理方法的不足,并且和它们有机结合,可望进一步增强对不确定、不完全信息的处理能力。

粗集理论中,知识被定义为对事物的分类能力。这种能力由上近似集、下近似集、等价关系等概念体

现。因为粗集处理的对象是类似二维关系表的信息表(决策表)。目前,成熟的关系数据库管理系统和新

发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。

粗集从决策表挖掘规则,辅助决策,其关键步骤是求值约简或数据浓缩,包括属性约简Wong SK和Ziarko W已经证明求最小约简是一个NP hard 问题。最小约简的求解需要属性约简和值约简两个过程,决策表约简涉及到核和差别矩阵两个重要概念。一般来讲,决策表的相对约简有许多, 最小约简(含有最小属性)是人们期望的。另一方面,决策表的核是唯一的,它定义为所有约简的交集,所以,核可以作为求解最小约简的起点。差别矩阵突出属性的分辨能力,从中可以求出决策表的核,以及约简规则。借助启发式搜索解决,苗夺谦等人从信息论的角度对属性的重要性作了定义,并在此基础上提出了一种新的知识约简算法MIBARK,但其对最小约简都是不完备的,此外,上述方法还只局限于完全决策表。Marzena K应用差别矩阵,推广了等价关系(相似关系) 、集合近似等概念,研究了不完全决策表(属性的取值含有空值的情况)的规则的发展问题, 从而为粗集的实用化迈出了可喜的一步。Marzena K还比较了几种不完全系统的分析方法,得出如下结论:

①一个规则是确定的,如果此规则在原不完全系统的每个完全拓展中是确定的;

②删除从不完全决策表包含空值的对象后, 采掘的知识可能成为伪规则.

粗集的数学基础是集合论,难以直接处理连续的属性. 而现实决策表中连续属性是普遍存在的, 因此,连续属性的离散化是制约粗集理论实用化的难点之一, 这个问题一直是人工智能界关注的焦点. 连续属性的离散化的根本出发点, 是在尽量减少决策表信息损失的前提下(保持决策表不同类对象的可分辨关系) , 得到简化和浓缩的决策表, 以便用粗集理论分析, 获得决策所需要的知识. 最优离散化问题(离散的切点数最少) 已被证明是NP - hard 问题, 利用一些启发式算法可以得到满意的结果. 总体上讲, 现有离散化方法主要分为非监督离散和监督离散化. 前者包括等宽度(将连续值属性的值域等份) 和等频率离散化(每个离散化区间所含的对象相同) . 非监督离散化方法简单, 它忽略了对象的类别信息, 只能用在属性具有特殊分布的情况. 针对上述问题, 监督离散化方法考虑了分类信息, 提高了离散效果. 目前,比较有代表性的监督离散化方法有以下几种:

① Holte 提出了一种贪婪的单规则离散器(one rule dis2cretizer) 方法;

② 统计检验方法;

③ 信息熵方法等.

这些方法各有特点, 但都存在一个不足, 即每个属性的离散化过程是相互独立的, 忽略了属性之间的关联, 从而使得离散结果中含有冗余或不合理的分割点. 针对这个问题, 有人给出了一种连续属性的整体离散化方法, 实验表明, 不仅能显著减少离散化划分点和归纳规则数, 而且提高了分类精度. 连续属性离散化目前还存在的问题是缺乏递增的离散化方法, 即当新的对象加入决策表时, 原有的分割点可能不是最优或最满意的.

粗集理论和其它软计算方法的结合, 能够提高数据挖掘能力. Mohua Banerjee 等利用集理论获得初始规则集, 然后, 构造对应的模糊多层神经网络(规则的置信度对应网络的连接权) , 训练后可得到精化的知识. 粗集与其它软计算方法的集成是数据挖掘的一种趋势. 目前, 基于粗集的数据挖掘在以下方面有待深化.

(1) 粗集和其它软计算方法的进一步结合问题;

(2) 粗集知识采掘的递增算法;

(3) 粗集基本运算的并行算法及硬件实现, 将大幅度改善数据挖掘的效率. 已有的粗集软件适用范围

还很有限. 决策表中的实例数量和属性数量受限制. 面对大量的数据, 有必要设计高效的启发式简化算法

或研究实时性较好的并行算法;

(4) 扩大处理属性的类型范围, 实际数据库离散化方法主要分为非监督离散化和监督离散化. 前者包括等宽度(将连续值属性的值域等份) 和等频率离散化(每个离散化区间所含的对象相同) . 非监督离散化方法简单, 它忽略了对象的类别信息, 只能用在属性具有特殊分布的情况. 针对上述问题, 监督离散化方法考虑了分类信息, 提高了离散效果. 目前,比较有代表性的监督离散化方法有以下几种: ① Holte 提出了一种贪婪的单规则离散器(one rule dis2cretizer) 方法; ② 统计检验方法; ③ 信息熵方法等. 这些方法各有特点, 但都存在一个不足, 即每个属性的离散化过程是相互独立的, 忽略了属性之间的关联, 从而使得离散结果中含有冗余或不合理的分割点. 针对这个问题, 有人给出了一种连续属性的整体离散化方法, 实验表明, 不仅能显著减少离散化划分点和归纳规则数, 而且提高了分类精度. 连续属性离散化目前还存在的问题是缺乏递增的离散化方法, 即当新的对象加入决策表时, 原有的分割点可能不是最优或最满意的.

粗集理论和其它软计算方法的结合, 能够提高数据挖掘能力. Mohua Banerjee 等利用集理论获得初始规则集, 然后, 构造对应的模糊多层神经网络(规则的置信度对应网络的连接权) [10 ] , 训练后可得到精化的知识. 粗集与其它软计算方法的集成是数据挖掘的一种趋势. 目前, 基于粗集的数据挖掘在以下方面有待深化.

(1) 粗集和其它软计算方法的进一步结合问题;

(2) 粗集知识采掘的递增算法;

(3) 粗集基本运算的并行算法及硬件实现, 将大幅度改善数据挖掘的效率. 已有的粗集软件适用范围还很有限. 决策表中的实例数量和属性数量受限制. 面对大量的数据, 有必要设计高效的启发式简化算法或研究实时性较好的并行算法;

(4) 扩大处理属性的类型范围, 实际数据库的属性类型是多样的, 既有离散属性, 也有连续属性; 既有字符属性, 也有数值属性. 粗集理论只能处理离散属性, 因此, 需要设计连续值的离散算法.

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/3/22 21:26:26