请输入您要查询的百科知识:

 

词条 同质分组
释义

名词解释

同质分组

它是将一组研究对象分为相对同质的群组(clusters)。

通俗的讲法,就是:物以类聚,人以群分。

集合论

在数学上,有一个基础概念和它相似:集合[aggregate]指一组具有某种共同性质的数学元素。它是把人们的直观的或思维中的某些确定的能够区分的对象汇合在一起,使之成为一个整体(或称为单体),这一整体就是集合。组成一集合的那些对象称为这一集合的元素(或简称为)。

康托(Cantor, G.F.P.,1845年—1918年,德国数学家先驱,是集合论的创始者。

外延公理 对于任意的集合S1和S2,S1=S2当且仅当对于任意的对象a,都有若a∈S1,则a∈S2;若a∈S2,则a∈S1。一定范围的,确定的,可以区别的事物,当作一个整体来看待,就叫做集合,简称集,其中各事物叫做集合的元素或简称元。

集合元素的性质

1.确定性:每一个对象都能确定是不是某一集合的元素,没有确定性就不能成为集合。

2.独立性:集合中的元素的个数、集合本身的个数必须为自然数。

3.互异性:集合中任意两个元素都是不同的对象,没有重复。

4.无序性:{a,b,c}{c,b,a}是同一个集合。

5.纯粹性:所谓集合的纯粹性,用个例子来表示。集合A={x|x<2},集合A 中所有元素都要符合x<2,这就是集合纯粹性。

6.完备性:仍用上例,所有符合x<2的数都在集合A中,即所谓完备性。

模糊集合

用来表达模糊性概念的集合。 又称模糊集、模糊子集。狭义的集合是指具有某种属性的对象的全体。这种属性所表达的概念是清晰的,界限分明的。每个对象对于集合的隶属关系也是明确的,非此即彼。但在人们的思维中还有着许多模糊的概念,它们所描述的对象属性不能简单地用“是”或“否”来回答,模糊集合就是指具有某个模糊概念所描述的属性的对象的全体。由于概念本身不是清晰的、界限分明的,因而对象对集合的隶属关系也不是明确的、非此即彼的。这一概念是美国加利福尼亚大学控制论专家L.A.扎德于 1965 年首先提出的。这一概念的出现使得数学的思维和方法可以用于处理模糊性现象,从而构成了模糊集合论的基础。

概念延伸

聚类分析

在统计学上有个重要概念,叫做聚类。

聚类 是将数据或者对象分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类与分类的不同在于,聚类所要求划分的类是未知的,它依据研究对象(样品或指标)的特征,对其进行集合分组,减少研究对象的数目。各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类而各指标之间具有一定的相关关系。

聚类分析 (cluster analysis) 是一种将研究对象分为相对同质的群组(clusters)的统计分析技术,也叫分类分析或数值分类。聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等,采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。以分层次管理的应用为例,聚类分析是通过数据挖掘来识别管理对象的层次,通过聚类观察到管理对象的特征,集中对特定层次的管理对象进行分析。此方法的主要步骤有:1.数据预处理;2.为衡量数据点间的相似度定义一个距离函数;3.聚类或分组;4.评估输出。具体方法运用可借助统计专业知识和人才,对管理对象和管理方法进行聚类分层。

主成分分析

主成分分析方法,首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。其原理是:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法,也是数学上处理降维的一种方法。这一分析方法是将多个变量通过线性变换,选出较少个重要变量的一种多元统计分析方法。样本信息的大小通常用离差平方和或方差来衡量。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

主要分析步骤如下:第一步,指标数据标准化(SPSS软件自动执行);第二步,指标之间的相关性判定;第三步,确定主成分个数m;第四步,主成分Fi表达式;第五步,主成分Fi命名。

这一方法在分层次管理应用上,可借助IT技术对数据进行处理,能更有效地做出信息判断,分划出管理对象和管理方法的层次。在管理对象的差异分析时,往往会提出很多与此有关的变量,统计分析方法能从太多变量个数中,找出变量个数较少而得到的信息较多结果。

因子分析

因子分析法是研究从变量群中提取共性因子的统计技术,最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

因子分析与主成分分析有很大的不同,主成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可测的原始变量的线性组合,而因子分析需要构造一个因子模型,公共因子一般不能表示为原始变量的线性组合。因子分析的基本思想是根据变量相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组内的变量的相关性较低.每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题,就可以试图用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量。因子分析可用于对变量或样品的分类处理。可根据因子的得分值,在因子轴所构成的空间中把变量或样品构画出来,形象直观地达到分类的目的。研究变量的相互关系的因子分析称为R型因子分析,而研究样品之间的相互关系的因子分析称为Q型因子分析。

以人力资源管理为例,如2家公司对48名应聘者进行面试,并给出他们在15个方面所得的分数。这15个方面是:申请书的形式、外貌、专业能力、讨人喜欢、自信心、精明、诚实、推销能力、经验、积极性、抱负、理解能力、潜力、交际能力和适应性。通过因子分析,可把这15个方面归结为应聘者的外露能力、讨人喜欢的程度、经验、专业能力和外貌这五个因子,为选用人才提供了差异性识别方法。在实际应用中,通过因子得分可以得出不同因子的重要性指标,而管理者则可根据这些指标的重要性来决定首先管理对象的分层和相应层次的管理对策。

实验实例

对比实验

心理学实验设计的主要步骤可归纳为:

1.建立与研究假说有关的统计假说;

2.确定实验中使用的实验处理(自变量)和必须控制的多余条件(额外变量);

3.确定实验中需要的实验单元(被试)的数量及被试抽样的总体;

4.确定将实验条件分配给被试的方法;

5.确定实验中每个被试要记载的测量(因变量)和使用的统计分析。

实验设计的主要功用是对变量的控制,首先是在控制条件下有效地操纵或改变自变量,使因变量(即反应变量)的变化得到观察。例如,研究两种教学方法对儿童学业成就的影响时,实验设计者应安排使其他条件尽量相同,即保证被试的同质性状,如选择家庭和学校环境相似、学业基础相似,年龄相同的两组儿童,只控制使用两种不同的教学方法,然后考查二者对学习结果的影响。

对比设计

这是心理实验最基本的设计之一。它把被试分为两组,一组为实验组,施以实验处理(也称处理);

另一组为控制组,不加实验处理。为使两组被试尽量同质,便于比较,一般采用随机分派法分组,通过测量两组的差异检验实验处理的效果。

其基本模式如Ⅰ。

即使随机分派被试,但样本不很大时,也很难保证两组在处理前同质,因而两组测量的差异不一定全是处理的结果。为了弥补这一不足,常在处理前先对两组进行测量,即模式Ⅱ。

如果前测的结果相近,可直接比较两组的后测,并用t检验法检验其差异,这时的差异即可认为完全是由处理造成的。如果两个前测不同,就要把前测作为共变量,进行独立样本单因素的共变量分析。这种设计的优点是克服了大部分影响内在效度的无关变量。但由于有前测,又增加了前测的反作用效果,使外在效果有所降低。所谓测验的反作用效果是指处理前进行的前测可能增加或减少被试对处理的敏感性。

正确的实验设计在于合理安排实验程序,对无关变量进行有效的控制心理学实验中的无关变量,有些可以象理化实验那样通过一定的实验仪器及技术予以排除,但大部分难以排除,必须依靠实验设计平衡或抵消其影响。这种控制方法称作实验控制法(实验误差)。还有一些无关变量,虽然明知它对结果有影响,但限于实验条件,不可能用实验控制法加以平衡或抵消,而只能在实验结束后,用统计的方法分析出来,从结论中排除,叫做统计控制法(统计误差)。评价一个实验设计主要是看其能否:①恰当地解决研究者所要解决的问题,即实验设计必须与研究问题匹配;②有较好的“内在效度”,即能够有效地控制无关变量,使反应变量的变化完全由自变量决定;③实验结果应具有一定的科学性、普遍性,能够推论到其他被试或其他情境,即有较高的“外在效度”。

应用

目前,同质分组在政治、学术、金融、教育、互联网、市场分析、游戏娱乐、犯罪预防 等诸多领域都有广泛的应用。

生物学

用于动植物分类和对基因进行分类识别,获取对种群固有结构的认识,以及对生理学、病理学、基因组的研究。

地理学

能够帮助发现被观察的地理数据互相之间的相似性,包括天文、水文、气象资料的分析。

商业分析

它被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。它是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。

金融

通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置、升值潜力来鉴定一个城市的房产分组。

因特网

被用来在网上进行文档归类来修复信息。

电子商务

在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/1/31 18:59:21