词条 | 离群值 |
释义 | 所谓离群值(outlier)是指在数据中有一个或几个数值与其他数值相比差异较大。医学实验中经常会有出现离群值的情况,究竟是由于随机涨落引起的,还是由于某些确定因素造成的,有时难以判断,如果处理不好将会引起较大的系统误差。对离群值的处理有一些统计判断的方法,如chanwennt准则规定,如果一个数值偏离观测平均值的概率小于等于1/(2n),则该数据应当舍弃(其中n为观察例数,概率可以很据数据的分布进行估计)。 发现离群值也可以通过观察值的频数表或直方图来初步判断,也可通过统计软件作观察值的箱式图来判断,如果观测值距箱式图底线Q1(第25百分位数)或顶线Q3(第75百分位数)过远,如超出箱体高度(四分位数间距)的两倍以上,则可视该观测值为离群值。当数据近似正态分布时,有一种较为简单的方法,可用均数加减2.5s来判断,如观测值在此范围以外,可视为离群值。在统计学上也可用线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。