“独立性检验”的意思、由来-中文百科全书

英文名：test for independence

统计学的一种检验方式。与适合性检验同属于X2检验（即卡方检验，英文名：chi square test）

它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。

假设有两个分类变量X和Y，它们的值域分另为{x1, x2}和{y1, y2}，其样本频数列联表为：

　y1　y2　总计

x1　a　b　a+b

x2　c　d　c+d

总计　a+c　b+d　a+b+c+d若要推断的论述为H1：“X与Y有关系”，可以利用独立性检验来考察两个变量是否有关系，并且能较精确地给出这种判断的可靠程度。具体的做法是，由表中的数据算出随机变量K^2的值（即K的平方）

K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)]　其中n=a+b+c+d为样本容量

K^2的值越大，说明“X与Y有关系”成立的可能性越大。

当表中数据a，b，c，d都不小于5时，可以查阅下表来确定结论“X与Y有关系”的可信程度：

P(K^2≥k)　0.50　0.40　0.25　0.15　0.10

k　0.455　0.708　1.323　2.072　2.706

P(K^2≥k)　0.05　0.025　0.010　0.005　0.001

k　3.841　5.024　6.635　7.879　10.828例如，当“X与Y有关系”的K^2变量的值为6.109，根据表格，因为5.024≤6.109<6.635，所以“X与Y有关系”成立的概率为1-0.025=0.975，即97.5%。

与列表相关联的概念

1. 分类变量

其不同“值”表示相应对象所属的不同类别的变量，分类变量的取值一定是离散的，而且不同的取值仅表示相应对象所属的类别，如性别变量只取男、女两个“值”，某商品的等级变量只取一级、二级、三级三个“值”，等等。分类变量的取“值”有时可用数字来表示，但这时的数字除了类别以外，没有其他的含义.如用“0”表示“男”，用“1”表示“女”？

2. 列联表

分类变量的统计汇总表（频数表）.在独立性检验中，一般只研究两个分类变量，且每个分类变量只有两个可取的值；这时得到的列联表称为2×2列联表，如后面的案例中的关于患肺癌与否与吸烟与否的列联表.?

独立性检验的基本思想

独立性检验的必要性

独立性检验的学习目标：了解独立性检验的基本思想

独立性检验的学习重点：会对两个分类变量进行独立性检验

即为什么不能只凭列联表中的数据和由其绘出的图形下结论, 由列联表可以粗略地估计出两个变量（两类对象）是否有关(即粗略地进行独立性检验)，但2×2列联表中的数据是样本数据，它只是总体的代表，具有随机性，故需要用独立性检验的方法确认所得结论在多大程度上适用于总体.关于这一点，在后面的案例中还要进一步说明.

独立性检验的原理及步骤

独立性检验是一种假设检验（先假设，再推翻假设）,它的原理及步骤与反证法类似.

反证法假设检验

要证明结论A想说明假设H1（两个分类变量，即两类对象有关）成立

在A不成立的前提下进行推理

在H1不成立，即H0（两类对象无关，即相互独立）成立的条件下进行推理，

推出矛盾，意味着结论A成立，

推出小概率事件（概率不超过α，α一般为0.001,0.01,0.05或0.1）发生，意味着H1成立的可能性很大（可能性为1-α），

没有找到矛盾，意味着不能确定A成立，

没有推出小概率事件发生，意味着不能确定H1成立。

独立性检验的案例展示

案例某医疗机构为了了解患肺癌与吸烟是否有关，进行了一次抽样调查，共调查了9 965个成年人，其中吸烟者2 148人，不吸烟者7 817人，调查结果是：吸烟的2 148人中49人患肺癌,2 099人不患肺癌；不吸烟的7 817人中42人患肺癌,7 775人不患肺癌.

根据这些数据能否断定：患肺癌与吸烟有关？

方法一由样本数据，可得如下列联表和条形图：

不患肺癌

患肺癌总计

不吸烟7 775427 817

吸烟2 099492 148

总计9 874919 965

在不吸烟者中，患肺癌的比重是0.54%;在吸烟者中，患肺癌的比重是 2.28% .

说明吸烟者和不吸烟者患肺癌的可能性存在较大的差异，吸烟者患肺癌的可能性大.可初步判断：患肺癌与吸烟有关.

方法二以上通过对数据和图表的分析，得到的结论是：患肺癌与吸烟有关.

但这个结论在多大程度上适用于总体呢？要回答这个问题，就必须借助于独立性检验的方法来分析.

独立性检验是检验两个分类变量是否有关（否是相互独立）的一种统计方法：

用字母表示题设数据（使之更有一般性），可得如下2×2列联表

不患肺癌患肺癌合计

不吸烟aba+b

吸烟cdc+d

合计a+cb+da+b+c+d

设样本容量为n，则n=a+b+c+d.?

想说明假设H1“患肺癌与吸烟有关”成立.

假设H0:H1不成立，即患肺癌与吸烟没有关系.

在H0成立的条件下，吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多，即aa+b≈c；c+d； a(c+d)≈c(a+b)； ad-bc≈0.

因此|ad-bc|越小,则说明患肺癌与吸烟之间的关系越弱.

构造统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}，

作为检验在多大程度上可认为“两个分类变量有关系”的标准.

若H0成立,则k2应该很小.实际上,统计学家们已经估算出如下概率:

P(k2>k0)0.500.400.250.150.10

k0.4550.7081.3232.0722.706

P(k2>k0)0.050.0250.0100.0050.001

k3.8415.0246.6357.87910.828

这就是独立性检验的临界值表.?

回到本案例，把题设数据代入公式，可得

k2=9 965(7 775×49-42×2 099)^2/{7 817×2 148×9 874×91}≈56.632.

在H0成立的情况下，P(k2≥56.632)<0.001，

即k2的值大于10.828的概率非常小（只有0.1%）.

但这个小概率事件竟然发生了。

因此,我们有99.9%以上的把握认为“患肺癌与吸烟有关”.

总结独立性检验的解题步骤如下：

第一步提出假设H0：患肺癌与吸烟没有关系.（目标结论H?1“患肺癌与吸烟有关系”的反面.）

第二步计算独立性检验的标准，即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值.（它越小，原假设H?0成立的可能性越大；它越大，目标结论H?1成立的可能性越大.）

第三步由独立性检验的临界值表得出结论及其可信度（即在多大程度上适用）.

词条	独立性检验
释义	与列表相关联的概念(1. 分类变量 2. 列联表) 独立性检验的基本思想(独立性检验的必要性独立性检验的原理及步骤独立性检验的案例展示) 英文名：test for independence 统计学的一种检验方式。与适合性检验同属于X2检验（即卡方检验，英文名：chi square test）它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。假设有两个分类变量X和Y，它们的值域分另为{x1, x2}和{y1, y2}，其样本频数列联表为：　y1　y2　总计 x1　a　b　a+b x2　c　d　c+d 总计　a+c　b+d　a+b+c+d若要推断的论述为H1：“X与Y有关系”，可以利用独立性检验来考察两个变量是否有关系，并且能较精确地给出这种判断的可靠程度。具体的做法是，由表中的数据算出随机变量K^2的值（即K的平方） K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)]　其中n=a+b+c+d为样本容量 K^2的值越大，说明“X与Y有关系”成立的可能性越大。当表中数据a，b，c，d都不小于5时，可以查阅下表来确定结论“X与Y有关系”的可信程度： P(K^2≥k)　0.50　0.40　0.25　0.15　0.10 k　0.455　0.708　1.323　2.072　2.706 P(K^2≥k)　0.05　0.025　0.010　0.005　0.001 k　3.841　5.024　6.635　7.879　10.828例如，当“X与Y有关系”的K^2变量的值为6.109，根据表格，因为5.024≤6.109<6.635，所以“X与Y有关系”成立的概率为1-0.025=0.975，即97.5%。与列表相关联的概念 1. 分类变量其不同“值”表示相应对象所属的不同类别的变量，分类变量的取值一定是离散的，而且不同的取值仅表示相应对象所属的类别，如性别变量只取男、女两个“值”，某商品的等级变量只取一级、二级、三级三个“值”，等等。分类变量的取“值”有时可用数字来表示，但这时的数字除了类别以外，没有其他的含义.如用“0”表示“男”，用“1”表示“女”？ 2. 列联表分类变量的统计汇总表（频数表）.在独立性检验中，一般只研究两个分类变量，且每个分类变量只有两个可取的值；这时得到的列联表称为2×2列联表，如后面的案例中的关于患肺癌与否与吸烟与否的列联表.? 独立性检验的基本思想独立性检验的必要性独立性检验的学习目标：了解独立性检验的基本思想独立性检验的学习重点：会对两个分类变量进行独立性检验即为什么不能只凭列联表中的数据和由其绘出的图形下结论, 由列联表可以粗略地估计出两个变量（两类对象）是否有关(即粗略地进行独立性检验)，但2×2列联表中的数据是样本数据，它只是总体的代表，具有随机性，故需要用独立性检验的方法确认所得结论在多大程度上适用于总体.关于这一点，在后面的案例中还要进一步说明. 独立性检验的原理及步骤独立性检验是一种假设检验（先假设，再推翻假设）,它的原理及步骤与反证法类似. 反证法假设检验要证明结论A想说明假设H1（两个分类变量，即两类对象有关）成立在A不成立的前提下进行推理在H1不成立，即H0（两类对象无关，即相互独立）成立的条件下进行推理，推出矛盾，意味着结论A成立，推出小概率事件（概率不超过α，α一般为0.001,0.01,0.05或0.1）发生，意味着H1成立的可能性很大（可能性为1-α），没有找到矛盾，意味着不能确定A成立，没有推出小概率事件发生，意味着不能确定H1成立。独立性检验的案例展示案例某医疗机构为了了解患肺癌与吸烟是否有关，进行了一次抽样调查，共调查了9 965个成年人，其中吸烟者2 148人，不吸烟者7 817人，调查结果是：吸烟的2 148人中49人患肺癌,2 099人不患肺癌；不吸烟的7 817人中42人患肺癌,7 775人不患肺癌. 根据这些数据能否断定：患肺癌与吸烟有关？方法一由样本数据，可得如下列联表和条形图：不患肺癌患肺癌总计不吸烟7 775427 817 吸烟2 099492 148 总计9 874919 965 在不吸烟者中，患肺癌的比重是0.54%;在吸烟者中，患肺癌的比重是 2.28% . 说明吸烟者和不吸烟者患肺癌的可能性存在较大的差异，吸烟者患肺癌的可能性大.可初步判断：患肺癌与吸烟有关. 方法二以上通过对数据和图表的分析，得到的结论是：患肺癌与吸烟有关. 但这个结论在多大程度上适用于总体呢？要回答这个问题，就必须借助于独立性检验的方法来分析. 独立性检验是检验两个分类变量是否有关（否是相互独立）的一种统计方法：用字母表示题设数据（使之更有一般性），可得如下2×2列联表不患肺癌患肺癌合计不吸烟aba+b 吸烟cdc+d 合计a+cb+da+b+c+d 设样本容量为n，则n=a+b+c+d.? 想说明假设H1“患肺癌与吸烟有关”成立. 假设H0:H1不成立，即患肺癌与吸烟没有关系. 在H0成立的条件下，吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多，即aa+b≈c；c+d； a(c+d)≈c(a+b)； ad-bc≈0. 因此\|ad-bc\|越小,则说明患肺癌与吸烟之间的关系越弱. 构造统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}，作为检验在多大程度上可认为“两个分类变量有关系”的标准. 若H0成立,则k2应该很小.实际上,统计学家们已经估算出如下概率: P(k2>k0)0.500.400.250.150.10 k0.4550.7081.3232.0722.706 P(k2>k0)0.050.0250.0100.0050.001 k3.8415.0246.6357.87910.828 这就是独立性检验的临界值表.? 回到本案例，把题设数据代入公式，可得 k2=9 965(7 775×49-42×2 099)^2/{7 817×2 148×9 874×91}≈56.632. 在H0成立的情况下，P(k2≥56.632)<0.001，即k2的值大于10.828的概率非常小（只有0.1%）. 但这个小概率事件竟然发生了。因此,我们有99.9%以上的把握认为“患肺癌与吸烟有关”. 总结独立性检验的解题步骤如下：第一步提出假设H0：患肺癌与吸烟没有关系.（目标结论H?1“患肺癌与吸烟有关系”的反面.）第二步计算独立性检验的标准，即统计量k2=n(ad-bc)^2/{(a+b)(c+d)(a+c)(b+d)}的值.（它越小，原假设H?0成立的可能性越大；它越大，目标结论H?1成立的可能性越大.）第三步由独立性检验的临界值表得出结论及其可信度（即在多大程度上适用）.
随便看	阿拉蕾第16卷阿拉蕾第17卷阿拉蕾第5卷阿拉蕾礼品装阿拉里奥北京艺术空间阿拉里克二世阿拉里皮地质公园阿拉里皮娇鹟阿拉里芋螺阿拉丽妮阿拉利阿拉利亚战役阿拉列阿拉鲁村阿拉鲁圭一阿拉马·伊克巴勒国际机场阿拉马拉·尼亚塞阿拉曼瑟之召返阿拉曼斯社区学院阿拉曼斯县阿拉米阿拉米村阿拉米达美容学院阿拉米达学院阿拉米尔陈丙礼烈士陈业枳陈东陈东东陈东古烈士陈东哲陈东女烈士陈东妮陈东日陈东海陈东琪陈东生陈东甫陈东秀烈士陈东辉陈东风陈严陈严清烈士陈中陈中伟陈中坚陈中开陈中民陈中泰陈中烈士