请输入您要查询的百科知识:

 

词条 数据聚类
释义

百科名片

数据聚类 (英语 : Cluster analysis) 是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。

一般把数据聚类归纳为一种非坚督式学习。

聚类类型

数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上之下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上之下算法则是把所有对象作为一个整体分类,然后逐渐分小。

结构性聚类

距离测量

在结构性聚类中,关键性的一步就是要选择测量的距离。一个简单的测量就是使用曼哈顿距离,它相当于每个变量的绝对差值之和。该名字的由来起源于在纽约市区测量街道之间的距离就是由人步行的步数来确定的。

一个更为常见的测量是欧式空间距离,他的算法是找到一个空间,来计算每个空间中点到原点的距离,然后对所有距离进行换算。

创建聚类

在已经得到距离值之后,元素间可以被联系起来。通过分离和融合可以构建一个结构。传统上,表示的方法是树形数据结构,

然后对该结构进行修剪。

分散性聚类

K-均值法及衍生算法

K-均值法聚类 K-均值算法表示以空间中k个点为中心进行聚类,对最靠近他们的对象归类。

例如: 数据集合为三维,聚类以两点: X = (x1, x2, x3) and Y = (y1, y2, y3). 中心点Z 变为 Z = (z1, z2, z3), where z1 = (x1 + y1)/2 and z2 = (x2 + y2)/2 and z3 = (x3 + y3)/2. 算法归纳为 (J. MacQueen, 1967):

选择聚类的个数k. 任意产生k个聚类,然后确定聚类中心,或者直接生成k个中心。 对每个点确定其聚类中心点。 再计算其聚类新中心. 重复以上步骤直到满足收敛要求。(通常就是确定的中心点不再改变). 该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要,因为结果往往需要随机点的选择非常巧合。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/7 17:52:57