“数据归约”的意思、由来-中文百科全书

一、数据归约基本知识：

对于小型或中型数据集，一般的数据预处理步骤已经足够。但对真正大型数据集来讲，在应用数据挖掘技术以前，更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约，主要问题是是否可在没有牺牲成果质量的前提下，丢弃这些已准备和预处理的数据，能否在适量的时间和空间里检查已准备的数据和已建立的子集。

对数据的描述，特征的挑选，归约或转换是决定数据挖掘方案质量的最重要问题。在实践中，特征的数量可达到数百，如果我们只需要上百条样本用于分析，就需要进行维归约，以挖掘出可靠的模型；另一方面，高维度引起的数据超负，会使一些数据挖掘算法不实用，唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现：列（特征），行（样本）和特征的值，数据归约过程也就是三个基本操作：删除列，删除行，减少列中的值。

在进行数据挖掘准备时进行标准数据归约操作，我们需要知道从这些操作中我们会得到和失去什么，全面的比较和分析涉及到如下几个方面的参数：

（1）计算时间：较简单的数据，即经过数据归约后的结果，可减少数据挖掘消耗的时间。

（2）预测/描述精度：估量了数据归纳和概括为模型的好坏。

（3）数据挖掘模型的描述：简单的描述通常来自数据归约，这样模型能得到更好理解。

数据归约算法特征：

（1）可测性

（2）可识别性

（3）单调性

（4）一致性

（5）收益增减

（6）中断性

（7）优先权

二、数据归约方法：

1、特征归约：

用相应特征检索数据通常不只为数据挖掘目的而收集，单独处理相关特征可以更有效，我们希望选择与数据挖掘应用相关的数据，以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果：

（1）更少的数据，提高挖掘效率

（2）更高的数据挖掘处理精度

（3）简单的数据挖掘处理结果

（4）更少的特征。

和生成归约后的特征集有关的标准任务有两个：

（1）特征选择：基于应用领域的知识和挖掘目标，分析者可以选择初始数据集中的一个特征子集。特征排列算法，最小子集算法

（2）特征构成：特征构成依赖于应用知识。

特征选择的目标是要找出特征的一个子集，此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较，此方法的主要缺点是特征的分布未知。最优方法的近似：

（1）只对有前景的特征子集进行检查

（2）用计算简单的距离度量替换误差度量

（3）只根据大量数据的子集选择特征。

词条	数据归约
释义	一、数据归约基本知识：对于小型或中型数据集，一般的数据预处理步骤已经足够。但对真正大型数据集来讲，在应用数据挖掘技术以前，更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约，主要问题是是否可在没有牺牲成果质量的前提下，丢弃这些已准备和预处理的数据，能否在适量的时间和空间里检查已准备的数据和已建立的子集。对数据的描述，特征的挑选，归约或转换是决定数据挖掘方案质量的最重要问题。在实践中，特征的数量可达到数百，如果我们只需要上百条样本用于分析，就需要进行维归约，以挖掘出可靠的模型；另一方面，高维度引起的数据超负，会使一些数据挖掘算法不实用，唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现：列（特征），行（样本）和特征的值，数据归约过程也就是三个基本操作：删除列，删除行，减少列中的值。在进行数据挖掘准备时进行标准数据归约操作，我们需要知道从这些操作中我们会得到和失去什么，全面的比较和分析涉及到如下几个方面的参数：（1）计算时间：较简单的数据，即经过数据归约后的结果，可减少数据挖掘消耗的时间。（2）预测/描述精度：估量了数据归纳和概括为模型的好坏。（3）数据挖掘模型的描述：简单的描述通常来自数据归约，这样模型能得到更好理解。数据归约算法特征：（1）可测性（2）可识别性（3）单调性（4）一致性（5）收益增减（6）中断性（7）优先权二、数据归约方法： 1、特征归约：用相应特征检索数据通常不只为数据挖掘目的而收集，单独处理相关特征可以更有效，我们希望选择与数据挖掘应用相关的数据，以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果：（1）更少的数据，提高挖掘效率（2）更高的数据挖掘处理精度（3）简单的数据挖掘处理结果（4）更少的特征。和生成归约后的特征集有关的标准任务有两个：（1）特征选择：基于应用领域的知识和挖掘目标，分析者可以选择初始数据集中的一个特征子集。特征排列算法，最小子集算法（2）特征构成：特征构成依赖于应用知识。特征选择的目标是要找出特征的一个子集，此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较，此方法的主要缺点是特征的分布未知。最优方法的近似：（1）只对有前景的特征子集进行检查（2）用计算简单的距离度量替换误差度量（3）只根据大量数据的子集选择特征。
随便看	顶星H-965PN 顶星H-A890GX超频版顶星H-NF5AK 顶星H-NF5AL 顶星 P55 顶星T-A780L+ 顶星T-A870 顶星T-A870超频版顶星T-A890GX全固版顶星TM-915PD2 顶星TM-915PL 顶星TM-945GZM 顶星TM-946GZM 顶星TM-C51GM2 顶星TM-C61VM 顶星TM-NF5AL 顶星TM-P5865GV 顶星T-N520M+ 顶星T-N68M+ 顶星T-P31K(G) 顶胸顶秀美泉家园顶秀清溪社区顶序石蜈蚣草顶选林健龙林傅林傅旬烈士林傅荣烈士林傅诗林儒林允湖烈士林元林元任烈士林元俊林元和林元国烈士林元培林元宝林元春林元汉烈士林元濂烈士林元熠烈士林元珠林元珠烈士林兆凤烈士林兆华林兆恩林兆枢林兆珂