词条 | 独立性检验 |
释义 | 英文名:test for independence 统计学的一种检验方式。与适合性检验同属于X2检验(即卡方检验,英文名:chi square test) 它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。 假设有两个分类变量X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:
x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方) K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量 K^2的值越大,说明“X与Y有关系”成立的可能性越大。 当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度: P(K^2≥k) 0.50 0.40 0.25 0.15 0.10 k 0.455 0.708 1.323 2.072 2.706 P(K^2≥k) 0.05 0.025 0.010 0.005 0.001 k 3.841 5.024 6.635 7.879 10.828例如,当“X与Y有关系”的K^2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关系”成立的概率为1-0.025=0.975,即97.5%。 与列表相关联的概念1. 分类变量其不同“值”表示相应对象所属的不同类别的变量,分类变量的取值一定是离散的,而且不同的取值仅表示相应对象所属的类别,如性别变量只取男、女两个“值”,某商品的等级变量只取一级、二级、三级三个“值”,等等。分类变量的取“值”有时可用数字来表示,但这时的数字除了类别以外,没有其他的含义.如用“0”表示“男”,用“1”表示“女”? 2. 列联表分类变量的统计汇总表(频数表).在独立性检验中,一般只研究两个分类变量,且每个分类变量只有两个可取的值;这时得到的列联表称为2×2列联表,如后面的案例中的关于患肺癌与否与吸烟与否的列联表.? 独立性检验的基本思想独立性检验的必要性独立性检验的学习目标:了解独立性检验的基本思想 独立性检验的学习重点:会对两个分类变量进行独立性检验 即为什么不能只凭列联表中的数据和由其绘出的图形下结论, 由列联表可以粗略地估计出两个变量(两类对象)是否有关(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体.关于这一点,在后面的案例中还要进一步说明. 独立性检验的原理及步骤独立性检验是一种假设检验(先假设,再推翻假设),它的原理及步骤与反证法类似. 反证法假设检验 要证明结论A想说明假设H1(两个分类变量,即两类对象有关)成立 在A不成立的前提下进行推理 在H1不成立,即H0(两类对象无关,即相互独立)成立的条件下进行推理, 推出矛盾,意味着结论A成立, 推出小概率事件(概率不超过α,α一般为0.001,0.01,0.05或0.1)发生,意味着H1成立的可能性很大(可能性为1-α), 没有找到矛盾,意味着不能确定A成立, 没有推出小概率事件发生,意味着不能确定H1成立。 独立性检验的案例展示案例 某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9 965个成年人,其中吸烟者2 148人,不吸烟者7 817人,调查结果是:吸烟的2 148人中49人患肺癌,2 099人不患肺癌;不吸烟的7 817人中42人患肺癌,7 775人不患肺癌. 根据这些数据能否断定:患肺癌与吸烟有关? 方法一 由样本数据,可得如下列联表和条形图: 不患肺癌 患肺癌总计 不吸烟7 775427 817 吸烟2 099492 148 总计9 874919 965 在不吸烟者中,患肺癌的比重是0.54%;在吸烟者中,患肺癌的比重是 2.28% . 说明吸烟者和不吸烟者患肺癌的可能性存在较大的差异,吸烟者患肺癌的可能性大.可初步判断:患肺癌与吸烟有关. 方法二 以上通过对数据和图表的分析,得到的结论是:患肺癌与吸烟有关. 但这个结论在多大程度上适用于总体呢?要回答这个问题,就必须借助于独立性检验的方法来分析. 独立性检验是检验两个分类变量是否有关(否是相互独立)的一种统计方法: 用字母表示题设数据(使之更有一般性),可得如下2×2列联表 不患肺癌患肺癌合计 不吸烟aba+b 吸烟cdc+d 合计a+cb+da+b+c+d 设样本容量为n,则n=a+b+c+d.? 想说明假设H1“患肺癌与吸烟有关”成立. 假设H0:H1不成立,即患肺癌与吸烟没有关系. 在H0成立的条件下,吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即aa+b≈c;c+d; a(c+d)≈c(a+b); ad-bc≈0. 因此|ad-bc|越小,则说明患肺癌与吸烟之间的关系越弱. 构造统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}, 作为检验在多大程度上可认为“两个分类变量有关系”的标准. 若H0成立,则k2应该很小.实际上,统计学家们已经估算出如下概率: P(k2>k0)0.500.400.250.150.10 k0.4550.7081.3232.0722.706 P(k2>k0)0.050.0250.0100.0050.001 k3.8415.0246.6357.87910.828 这就是独立性检验的临界值表.? 回到本案例,把题设数据代入公式,可得 k2=9 965(7 775×49-42×2 099)^2/{7 817×2 148×9 874×91}≈56.632. 在H0成立的情况下,P(k2≥56.632)<0.001, 即k2的值大于10.828的概率非常小(只有0.1%). 但这个小概率事件竟然发生了。 因此,我们有99.9%以上的把握认为“患肺癌与吸烟有关”. 总结 独立性检验的解题步骤如下: 第一步 提出假设H0:患肺癌与吸烟没有关系.(目标结论H?1“患肺癌与吸烟有关系”的反面.) 第二步 计算独立性检验的标准,即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值.(它越小,原假设H?0成立的可能性越大;它越大,目标结论H?1成立的可能性越大.) 第三步 由独立性检验的临界值表得出结论及其可信度(即在多大程度上适用). |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。