1.2
独立性检验的基本思想及其初步应用
【自主预习】
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的_________,像这样
的变量称为分类变量. 不同类别
(2)列联表
①定义:列出的两个分类变量的_______称为列联表.
②2×2列联表:
一般地,假设有两个分类变量X和Y,它们的取值分别
为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2
列联表)为
频数表
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分
类变量间是否_________,常用等高条形图展示列联表
数据的_________.
(2)如果直接观察等高条形图发现______和______相
差很大,就判断两个分类变量之间有关系.
相互影响
频率特征
3.独立性检验
定
义
利用随机变量K2来判断“两个分类变量有关系”的
方法称为独立性检验
公
式 a+b+c+d
具
体
步
骤
①确定α,根据实际问题的需要确定容许推断
“两个分类变量有关系”犯错误概率的上界α,
然后查表确定________.
②计算K2,利用公式计算随机变量K2的________.
③下结论,如果_____,就推断“X与Y有关系”,
这种推断_____________不超过α;否则,就认
为在犯错误的概率不超过α的前提下不能推断
“X与Y有关系”,或者在样本数据中_________
_________支持结论“X与Y有关系”
临界值k0
观测值k
k≥k0
犯错误的概率
没有发现
足够证据
【即时小测】
1.下列变量中不属于分类变量的是( )
A.性别 B.吸烟
C.宗教信仰 D.职业
【解析】选B.“吸烟”不是分类变量.“是否吸烟”才是
分类变量.
2.下面是2×2列联表.
y1 y2 总计
x1 33 21 54
x2 a 13 46
总计 b 34
则表中a,b处的值应为( )
A.33,66 B.25,50
C.32,67 D.43,56
【解析】选A.由2×2列联表知a+13=46,所以a=33,
又b=a+33,所以b=33+33=66.
3.如果在犯错误的概率不超过0.05的前提下认为事件A
和B有关,那么具体算出的数据满足( )
A.K2>3.841 B.K26.635 D.K23.841.
【知识探究】
探究点1 2×2列联表
1.2×2列联表中研究的变量是什么变量?
提示:分类变量.
2.2×2列联表中{x1,x2},{y1,y2}的意义是什么?
提示:{x1,x2},{y1,y2}表示分类变量x,y的取值.
【归纳总结】
1.对“分类变量”的三点说明
(1)这里的“变量”和“值”都应作为“广义”的变量和值进
行理解.例如,对于性别变量,其取值为男和女两种.
这里的变量指的是性别,同样这里的“值”指的是“男”
和“女”.因此,这里所说的“变量”和“值”不一定取的是
具体的数值.
(2)分类变量是大量存在的.例如,是否吸烟变量有吸
烟与不吸烟两种类别,而国籍变量则有多种类别.
(3)注意区分分类变量与定量变量的不同.如身高、体
重、考试成绩等就是定量变量,它们的取值一定是实
数,并且取值大小有特定的含义.
2.2×2列联表
(1)2×2列联表用于研究两类变量之间是否相互独立,
它适用于分析两类变量之间的关系,是对两类变量进
行独立性检验的基础.
(2)表中|ad-bc|越小,两个变量之间的关系越弱;|ad
-bc|越大,两个变量之间的关系越强.
特别提醒:判断两个分类变量相关关系强弱也可通过
比较 与 之间的差的大小来判断,差越大,
相关关系越强.
探究点2 K2统计量
1.K2≥6.635是指在犯错误的概率不超过多少的前提下
认为两个分类变量有关系?
提示:0.010.
2.当K2≥3.841时,认为“X与Y有关系”而犯错误的概率
有多大?
提示:不超过0.05.
【归纳总结】
独立性检验的关注点
(1)使用K2统计量作独立性检验时,2×2列联表中的数
据a,b,c,d都要大于5.
(2)独立性检验类似于数学中的反证法,要确认“两个
变量有关系”这一结论成立的可信度,首先假设结论不
成立,在假设下,我们构造的统计量K2应该很小.如果
由观测数据计算得到的K2值很大,则在一定程度上说
明假设不合理,再根据不合理的程度与临界值的关系
作出判断.
类型一 等高条形图与2×2列联表
【典例】1.下列关于等高条形图的叙述正确的是( )
A.从等高条形图中可以精确地判断两个分类变量是否
有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否
有关系
D.以上说法都不对
2.在2×2列联表中,两个比值________相差越大,两
个分类变量之间的关系越强.( )
3.为了解铅中毒病人与尿棕色素为阳性是否有关系,
分别对病人组和对照组的尿液作尿棕色素定性检查,
结果如下:
组别 阳性数 阴性数 总计
铅中毒病人 29 7 36
对照组 9 28 37
总计 38 35 73
试画出列联表的等高条形图,分析铅中毒病人和对照
组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色
素为阳性是否有关系?
【解题探究】
1.典例1中利用等高条形图可以比较两个变量的什么大
小关系?
提示:利用等高条形图可以比较两个变量频率的大小
关系.
2.典例2中,研究两个分类变量的关系,应着重研究
哪些量?
提示:应着重研究 与 或者 与 .
3.典例3中要画出等高条形图应先计算哪些量?
提示:铅中毒病人和对照组样本中尿棕色素为阳性
的频率.
【解析】1.选C.在等高条形图中仅能粗略判断两个分
类变量的关系,故A错.在等高条形图中仅能找出频
率,无法找出频数,故B错.
2.选A. 与 相差越大,说明ad与bc相差越
大,两个分类变量之间的关系越强.
3.等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样
本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕
色素为阳性的频率差异明显,因此铅中毒病人与尿棕
色素为阳性有关系.
【方法技巧】
1.判断两个分类变量是否有关系的方法
(1)利用数形结合思想,借助等高条形图来判断两个分
类变量是否相关是判断变量相关的常见方法.
(2)在等高条形图中, 与 相差越大,两个分类
变量有关系的可能性就越大.
2.利用等高条形图判断两个分类变量是否相关的步骤
【变式训练】从发生交通事故的司机中抽取2000名司
机作随机样本,根据他们血液中是否含有酒精以及他
们是否对事故负有责任将数据整理如下:
有责任 无责任 总计
有酒精 650 150 800
无酒精 700 500 1 200
总计 1 350 650 2 000
试分析血液中含有酒精与对事故负有责任是否有关系.
【解析】作等高条形图如下,
图中阴影部分表示有酒精负责
任与无酒精负责任的比例,从
图中可以看出,两者差距较大,
由此我们可以在某种程度上认
为“血液中含有酒精与对事故负有责任”有关系.
类型二 K2独立性检验
【典例】为了探究学生选报文、理科是否与对外语的
兴趣有关,某同学调查了361名高二在校学生,调查结
果如下:理科对外语有兴趣的有138人,无兴趣的有98
人,文科对外语有兴趣的有73人,无兴趣的有52人.能
否在犯错误的概率不超过0.1的前提下,认为“学生选
报文、理科与对外语的兴趣有关”?
【解题探究】本例中“犯错误的概率不超过0.1”对应
的K2值应满足什么?
提示:“犯错误的概率不超过0.1”对应的K2值应满足
K2≥2.706.
【解析】根据题目所给的数据得到如下列联表:
理科 文科 总计
有兴趣 138 73 211
无兴趣 98 52 150
总计 236 125 361
根据列联表中数据由公式计算得
k= ≈1.871×10-4.
因为1.871×10-42.706,
所以,在犯错误的概率不超过0.1的前提下,可以认
为“学生选报文、理科与对外语的兴趣有关”.
2.在上述探究中能否在犯错误的概率不超过0.001的前
提下,认为“学生选报文、理科与对外语的兴趣有关”
?
【解析】由上述探究可知k=33.690>10.828,故在犯错
误的概率不超过0.001的前提下,可以认为“学生选报
文、理科与对外语的兴趣有关”.
【方法技巧】反证法与独立性检验的关系
反证法 独立性检验
要证明结论A 要确认“两个分类变量有关系”
在A不成立的前
提下进行推理
假设该结论不成立,即假设结论“
两个分类变量没有关系”成立,在
该假设下计算K2
推出矛盾意味着
结论A成立
由观测数据计算得到的K2的观测值
k很大,则在一定可信程度上说明
假设不合理
反证法 独立性检验
没有找到矛盾,
不能对A下任何
结论,即反证法
不成立
根据随机变量K2的含义,可以通过
概率P(K2≥k0)的大小来评价该假设
不合理的程度有多大,从而得出“
两个分类变量有关系”这一结论成
立的可信程度有多大
易错警示:当K2的观测值k≥k0时,是指“在犯错误的概
率不超过α的前提下推出“X与Y有关系”,而不是“X与
Y有关系的概率为α”.
【补偿训练】某学校对学生的课外活动进行调查,结
果如表:
体育 文娱 总计
男生 21 23 44
女生 6 29 35
总计 27 52 79
试用你所学过的知识进行分析,能否在犯错误的概率
不超过0.005的前提下,认为学生喜欢课外活动的类型
与性别有关?
【解析】由表中数据可知K2的观测值
因为P(K2≥7.879)≈0.005且8.106>7.879.
所以在犯错误的概率不超过0.005的前提下,可以认为
学生喜欢课外活动的类型与性别有关系.
自我纠错 判断两个分类变量的相关程度
【典例】在某项研究吸烟与患肺癌的关系的调查中,
共调查了10000人,经计算得K2的观测值k=62.98,根
据这一数据分析,在犯错误的概率超过_______的前
提下认为“吸烟与患肺癌没有关系”.(P(K2≥10.828)
≈0.001).
【失误案例】
分析解题过程,找出错误之处,并写出正确答案.
提示:错误的根本原因是审题错误,由题意可知,我
们认为“吸烟与患肺癌有关系”,这种判断出错的可能
性是0.001.因此,我们认为“吸烟与患肺癌没有关系”
,这种判断出错的可能性是0.999.正确解答过程如下:
【解析】由P(K2≥10.828)≈0.001知在犯错误的概率
不超过0.001的前提下认为“吸烟与患肺癌有关系”.
因此在犯错误的概率超过0.999的前提下认为“吸烟与
患肺癌没有关系”.
答案:0.999