“相似系数和距离”的意思、由来-中文百科全书

相似系数和距离是聚类分析中的两个专业术语。

为了将样品（或指标，一个样品包含n个指标，比如一个“张三”是一个样品，他的年龄、身高、学历等等就是指标）进行分类，就需要研究样品之间关系，目前用的最多的方法有两个：一种方法是用相似系数，性质越接近的样品，他们的相似系数的绝对值越接近1，而彼此无关的样品，他们的相似系数的绝对值越接近于0。比较相似的样品归为一类，不怎么相似的样品归不同的类。另一种方法是将一个样品看做p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。在实际问题中，我们常常用聚类对样品分类，用相似系数对指标分类。相似系数和距离有各种各样的定义，而这些定义与变量的类型关系极大，因此先介绍变量的类型。

由于实际问题中，遇到的指标有的是定量的（如长度、重量等），有的是定性的（如性别、职业等），因此将变量（指标）的类型按以下三种尺度划分：

间隔尺度：变量是用连续的量来表示的，如长度、重量、压力、速度等等，在间隔尺度中，如果存在绝对零点，又称比例尺度。

有序尺度：变量度量时没有明确的数量表示，而是划分一些等级，等级之间有次序关系，如某产品分上、中、下三等，次三等有次序关系，但没有数量表示。

名义尺度：变量度量时既没有数量表示，也没有次序关系，如某物体有红、黄、白三种颜色，性别有男女之分，市场供求中有“产”和“销”等。

不同类型的变量，在定义聚类和相似系数时，其方法是有很大差异的。研究和使用较多的是间隔尺度，现给出间隔尺度的距离和相似系数的定义。

其中（i=1，……，n;j=1，……，p）为第i个样品的第j个指标的观测数据。第i个样品为矩阵X的第i行所描述，所以任何两个样品和之间的相似性，可以通过矩阵X中的第K行和第L行的相似程度来刻画；任何两个变量和之间的相似性，可以通过第K列和第L列的相似程度来刻画。

词条	相似系数和距离
释义	相似系数和距离是聚类分析中的两个专业术语。为了将样品（或指标，一个样品包含n个指标，比如一个“张三”是一个样品，他的年龄、身高、学历等等就是指标）进行分类，就需要研究样品之间关系，目前用的最多的方法有两个：一种方法是用相似系数，性质越接近的样品，他们的相似系数的绝对值越接近1，而彼此无关的样品，他们的相似系数的绝对值越接近于0。比较相似的样品归为一类，不怎么相似的样品归不同的类。另一种方法是将一个样品看做p维空间的一个点，并在空间定义距离，距离越近的点归为一类，距离较远的点归为不同的类。在实际问题中，我们常常用聚类对样品分类，用相似系数对指标分类。相似系数和距离有各种各样的定义，而这些定义与变量的类型关系极大，因此先介绍变量的类型。由于实际问题中，遇到的指标有的是定量的（如长度、重量等），有的是定性的（如性别、职业等），因此将变量（指标）的类型按以下三种尺度划分：间隔尺度：变量是用连续的量来表示的，如长度、重量、压力、速度等等，在间隔尺度中，如果存在绝对零点，又称比例尺度。有序尺度：变量度量时没有明确的数量表示，而是划分一些等级，等级之间有次序关系，如某产品分上、中、下三等，次三等有次序关系，但没有数量表示。名义尺度：变量度量时既没有数量表示，也没有次序关系，如某物体有红、黄、白三种颜色，性别有男女之分，市场供求中有“产”和“销”等。不同类型的变量，在定义聚类和相似系数时，其方法是有很大差异的。研究和使用较多的是间隔尺度，现给出间隔尺度的距离和相似系数的定义。其中（i=1，……，n;j=1，……，p）为第i个样品的第j个指标的观测数据。第i个样品为矩阵X的第i行所描述，所以任何两个样品和之间的相似性，可以通过矩阵X中的第K行和第L行的相似程度来刻画；任何两个变量和之间的相似性，可以通过第K列和第L列的相似程度来刻画。
随便看	大众交通大众交通(集团)股份有限公司大众皆喜大众街大众街街道大众捷达大众捷达车系电路维修图册大众金融大厦大众经济学大众卡大众开迪大众科技大众科技报大众科技培训中心大众科技杂志社大众科学大众朗逸大众冷面大众理财顾问大众理财网大众脸大众旅行车Variant 大众旅游网大众码汉字输入法V5.1.3 大众迈腾田宝臣田宫模型田家乡田家会战斗田家子田家庵田家庵区田家炳田家炳星田家站田家翁田家英田家达田富达田小军田小宝田少军田山花袋田岛昭宇田岷田峻烈士田崎润田川田川七左卫门田川松