1.2
独立性检验的基本思想及其初步应用
【阅读教材】
根据下面的知识结构图阅读教材,了解独立性检验的基本步骤及
基本思想.
【知识链接】
1.散点图
散点图可以形象地展示两个变量之间的关系,所以它的主要目的就是
直观了解两个变量之间的关系.
2.用样本估计总体的两种情况
(1)用样本的频率分布估计总体分布.
(2)用样本的数字特征估计总体数字特征.
主题一:列表与等高条形图
【自主认知】
1.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作多 认为作不多 计
喜欢玩脑游戏 18 9 27
不喜欢玩脑游戏 8 15 23
计 26 24 50
喜欢玩脑游戏的学生中认为作多的所占的比例是多少?不喜欢玩
脑游戏的学生中认为作多的呢?
提示:喜欢玩电脑游戏的学生中认为作业多的所占的比例是 ,不喜
欢玩电脑游戏的学生中认为作业多的所占的比例是 .
2.某校对学生课外活动(文娱和体育)进行调查,结果整理成下图(两个
深色条的高分别表示男生与女生样本中喜欢文娱的学生的频率):
喜欢文娱的学生中是男生还是女生所占的比例多?
提示:女生.
根据以上探究,完成以下填空.
1.与列表相关的概念
(1)分量:
量的不同“值”表示个体所属的_________,这的量称为分量.
不同别
(2)列表:
①列出的_____分量的_______,称为列表.
②一般地,假有两个分量X和Y,它们的取值分别为{x1,x2}和
{y1,y2},其本频数列表(称为2×2列表)为:
y1 y2 计
x1 a b ____
x2 c d ____
计 ____ ____ ________
两个 频数表
a+b
c+d
a+c b+d a+b+c+d
2.等高条形图
直观性:与表格相比,等高条形图更能直观地反映出两个分量
是否_________.
用途:(1)常用等高条形图展示列表数据的_________.
(2)判断两个分量之有关系可以通过观察等高条形图相差很
大的两个量是_____和_____.
相互影响
频率特征
【合作探究】
1.分量的值就是指的一些具体数吗?
提示:这里的“变量”和“值”都应作为广义的变量和值来理解,只要
不属于同种类别都是变量和值,并不一定是取具体的数值,如:男、女;
上、下;左、右等.
2.等高条形图与列表相比有何优点?
提示:更直观,更明了.
3.利用等高条形图能否精确地判断两个分量是否有关系?为什么?
提示:不能,因为通过等高条形图,可以粗略地判断两个分类变量是否
有关系,但这种判断无法精确地给出所得结论的可靠程度.
【过关小练】
1.观察下列各图,其中两个分量x,y之关系最强的是( )
【解析】选D.在四幅图中,D图中两个阴影的高相差最明显,说明两个
分类变量之间关系最强.
2.对两个分量进行独立性检验的主要作用是 ( )
A.判断模型的合效果
B.对两个量进行相关分析
C.给出两个分量有关系的可靠程度
D.估计预报量的平均值
【解析】选C.独立性检验的目的就是明确两个分类变量有关系的可靠
程度.
主题二:独立性检验的基本思想
【自主认知】
1.列表中|ad-bc|的值与两个分量之相关的强弱有什么关系?
提示:在列联表中,若两个分类变量没有关系,则|ad-bc|≈0,所以|ad-
bc|的值越小,两个分类变量之间的关系越弱;|ad-bc|的值越大,两个
分类变量之间的关系越强.
2.在独立性检验中,计算得k=29.78,在判断量相关时,P(K2≥6.635)
≈0.01的含是什么?
提示:P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前
提下认为两个变量相关.
根据以上探究,完成以下填空.
独立性检验的基本思想
(1)定:利用_________K2来判断“两个分量_______”的方法称
为独立性检验.
(2)公式:K2= ,其中n=a+b+c+d.
随机量 有关系
(3)独立性检验的具体步骤:
①定上界:根据问题的需要确定容许推断“两个分量有关
系”犯错误概率的上界α,然后查表确定________.
②计算:利用公式计算随机量K2的________.
③下结论:如果_____,就推断“X与Y有关系”,这种推断犯错误的概
率不超过α,否则,就认为在_____________不超过α的前提下不能
推断“X与Y有关系”,或者在本数据中_________________支持结
论“X与Y有关系”.
临界值k0
观测值k
k≥k0
犯错误的概率
没有现足证据
【合作探究】
根据下表数据,回答下列问题:
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10
k0 0.455 0.708 1.323 2.072 2.706
P(K2≥k0) 0.05 0.025 0.010 0.005 0.001
k0 3.841 5.024 6.635 7.879 10.828
(1)在判断量是否有关系时,若K2的观测值k=7.123,则判断两量有
关系犯错误的概率不超过 .
提示:由表格可知P(K2≥6.635)≈0.010,
而k=7.123>6.635,故应填0.010.
答案:0.010
(2)若求得K2的观测值k=0.70,则由表格数据可知,两量之的关系
应该表述为 .
提示:由于P(K2≥0.455)≈0.50,故由相关性可知,没有足够证据说明
两变量有关系.
答案:没有足够证据说明两变量有关系
(3)若求得K2的观测值k=56.35,则在说明两量有关系时应用表格中k0
的值为 .
提示:由于k的数据比较大,故应利用P(K2≥10.828)≈0.001中的
k0=10.828这一数据.
答案:10.828
【过关小练】
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸
烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认
为这个结论是成立的,下列说法中正确的是 ( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
【解析】选D.独立性检验的结果与实际问题有差异,即独立性检验的
结论是一个数学统计量,它与实际问题中的确定性存在差异.
2.有两个分量X与Y的一组数据,由其列表计算得k≈4.523,则认
为“X与Y有关系”犯错误的概率为 ( )
A.95% B.90%
C.5% D.10%
【解析】选C.P(K2≥3.841)≈0.05,而k≈4.523>3.841.这表明认为
“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯
错误的概率为5%.
【归纳总结】
分类变量的概念及等高条形图的三个关注点
(1)分类变量的取值特点:分类变量的取值一定是离散的,而且不同的
取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的
等级变量只取一级、二级、三级等.
(2)分类变量的表示:分类变量的不同取值可以用数字来表示,这时的
数字没有其他的含义,不同值之间的大小没有意义.
(3)分类变量的图示:作图应注意单位统一,图形准确,但它不能给出两
个分类变量有关或无关的精确的可信程度.
【拓展延伸】假检验的思想与反证法的关系
反证法 假检验
要证明结论A 假H1
在A不成立的前提下进
行推理
在H1不成立的条件下,即H0成立的条件下进行
推理
推出矛盾,意味着结论
A成立
推出有利于H1成立的小概率事件(概率不超过
α的事件)生,意味着H1成立的可能性(可能
性为(1-α))很大
没有找到矛盾,不能对
A下任何结论,即反证
法不成功
推出有利于H1成立的小概率事件不生,接受
原假
型一:列表与等高条形图
【典例1】(2015·青岛高二检测)某学校对高三学生作了一项调查
现:在平时的模考试中,性格内向的学生426人中332人在考前心情紧
张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,
利用图形判断考前心情紧张与性格别是否有关系.
【解题指南】先作出2×2列联表,再根据列联表数据作等高条形图,最
后对比乘积的差距判断两个分类变量是否有关.
【解析】作列联表如下:
性格内向 性格外向 总计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
总计 426 594 1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,
从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情
不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类
型有关.
【规律结】
1.利用等高条形图判断两个分量是否相关的步骤
2.直观判断两个分量是否有关的思路
(1)利用列表直接计算ad-bc,如果两者相差很大,就判断两个分
量之有关系.
(2)在等高线条形图中展示列表数据的频率特征,比较图中两个深色
条的高可以现两者频率不一而得出结论.这种直观判断的不足之
在于不能给出推断“两个分量有关系”犯错误的概率.
【巩固训练】为了了解铅中毒病人是否有尿棕色素增加现象,分别对
病人组和对照组的尿液做尿棕色素定性检查,结果如下表,问铅中毒病
人组和对照组的尿棕色素阳性数有无相关关系?
组别 阳性数 阴性数 计
铅中毒病人组 29 7 36
对照组 9 28 37
计 38 35 73
【解析】根据列联表作出等高条形图(如图).由图形可知,铅中毒病人
组与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕
色素为阳性存在相关关系.
【偿训练】在调查中现480名男人中有38名患有色盲,520名女人
中有6名患有色盲.下列说法正确的是( )
A.男、女患色盲的频率分别为0.038,0.006
B.男、女患色盲的概率分别为
C.男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有
关的
D.调查人数太少,不能说明色盲与性别有关
【解析】选C.男人中患色盲的比例为 要比女人中患色盲的比
例 大,其差值为 ≈0.0676,差值较大.
型二:独立性检验
【典例2】在对人们休闲方式的一次调查中,共调查120人,其中女性70
人、男性50人.女性中有40人主要的休闲方式是看,另外30人主要
的休闲方式是运;男性中有20人主要的休闲方式是看,另外30人
主要的休闲方式是运.
(1)根据以上数据建立一个2×2的列表.
(2)休闲方式与性别是否有关?
【解题指南】(1)利用题目中所给的数据列表.
(2)利用公式求出K2的观测值k的值.再利用临界值的大小来判断.
【解析】(1)2×2的列联表为
休闲
方式
性别
看电视 运动 总计
女性 40 30 70
男性 20 30 50
总计 60 60 120
(2)计算K2的观测值为
k= ≈3.429.
而2.7063.841)≈0.05,
所以,在犯错误的概率不超过0.10的前提下,认为休闲方式与性别有关.
【延伸探究】本题条件不的情况下,画出等高条形图.
【解析】
【规律结】解决一般的独立性检验问题的三个步骤
(1)通过所给列表确定a,b,c,d,n的值.
(2)利用K2= 求随机量K2的观测值.
(3)将所得K2的观测值与相关临界值比较,得出两个量是否有关系的
结论.
【巩固训练】(2015·昆明高二检测)国家虽然出台了多次限购令,但
各地房地产市场依然热火朝天,主要是利益的驱使,有些开商不遵守
职道德,违规使用未淡化海砂;为了研究使用淡化海砂与混凝土耐
久性是否达标有关,某大学验室随机抽取了60个本,得到了如下的
2×2列表:
混凝土耐
久性达标
混凝土耐久
性不达标 计
使用淡化海砂 25 30
使用未
淡化海砂
15
计
充完整表中的数据:利用独立性检验的方法判断,能否在犯错误的概
率不超过0.01的前提下,认为使用淡化海砂与混凝土耐久性是否达标
有关?
【解析】列联表如表所示:
混凝土耐
久性达标
混凝土耐久
性不达标 总计
使用淡化海砂 25 5 30
使用未经
淡化海砂 15 15 30
总计 40 20 60
假设:是否使用淡化海砂与混凝土耐久性是否达标无关,由已知数据
可求得:
k= =7.5>6.635,
因此,能在犯错误的概率不超过0.01的前提下,
认为使用淡化海砂与混凝土耐久性是否达标有关.
【偿训练】在一次天气恶劣的行航程中,调查了男女乘客在机
上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的
有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的行航
程中,男乘客是否比女乘客更容易晕机?
【解析】根据题意,列出2×2列联表如下:
晕机 不晕机 总计
男乘客 24 31 55
女乘客 8 26 34
总计 32 57 89
假如在天气恶劣的飞行航程中,男乘客不比女乘客更容易晕机.
由公式可得K2的观测值
k= ≈3.689>2.706,
故能在犯错误的概率不超过0.1的前提下,认为“在天气恶劣的飞行航
程中,男乘客比女乘客更容易晕机”.
型三:独立性检验的综合应用
【典例3】(2015·吉林高二检测)某学校研究性学习小组对该校高三
学生力情况进行调查,在高三的全体1000名学生中随机抽取了若干
名学生的体检表,并得到如下直方图:
(1)若直方图中前三组的频率成等比数列,后四组的频率成等差数列,
试估计全年级视力在5.0以下的人数.
(2)学习小组成员现,学习成绩突出的学生,近的比较多,为了研究
学生的力与学习成绩是否有关系,对年级名次在1~50名和951~
1000名的学生进行了调查,得到如下数据:
1~50 951~1 000
近 41 32
不近 9 18
根据表中的数据,能否在犯错的概率不超过0.05的前提下认为力与
学习成绩有关系?附:
K2=
P(K2≥k0) 0.10 0.05 0.025 0.010 0.005
k0 2.706 3.841 5.024 6.635 7.879
【解题指南】(1)利用直方图中前三组的频率成等比数列,后四组的频
率成等差数列,求出视力在5.0以下的频率,即可估计全年级视力在5.0
以下的人数.
(2)求出K2,与临界值比较,即可得出结论.
【解析】(1)设各组的频率为fi(i=1,2,3,4,5,6),
依题意,前三组的频率成等比数列,后四组的频率成等差数列,故
f1=0.15×0.2=0.03,f2=0.45×0.2=0.09,f3= =0.27,
所以由 =1-(0.03+0.09),得f6=0.17,
所以视力在5.0以下的频率为1-0.17=0.83,
故全年级视力在5.0以下的人数约为1000×0.83=830.
(2)k= ≈4.110>3.841,
因此能在犯错误的概率不超过0.05的前提下认为视力与学习成绩有关
系.
【规律结】判定事件A与B是否有关问题的具体步骤
(1)采集本数据,列出2×2列表.
(2)由K2= 计算K2的观测值.
(3)计推断,根据临界值表下结论.
【巩固训练】为了调查某生产线上质量监督员甲对产品质量好坏有无
影响,现计数据如下:甲在现场时,990件产品中有合格品982件,次品
8件;甲不在现场时,510件产品中有合格品493件,次品17件.试分别用
列表、等高条形图、独立性检验的方法分析质量监督员甲对产品质
量好坏有无影响,能否在犯错误的概率不超过0.001的前提下,认为质
量监督员甲是否在生产现场与产品质量有关?
【解析】(1)2×2列联表如下:
合格品数 次品数 总计
甲在生产现场 982 8 990
甲不在生产现场 493 17 510
总计 1 475 25 1 500
由列联表可得|ad-bc|=|982×17-493×8|=12750.
这个数值较大,可在某种程度上认为“质量监督员甲是否在生产现场
与产品质量有关系”.
(2)画等高条形图.
如图可知,在某种程度上认为“质量监督员甲是否在生产现场与产品
质量有关系”.
(3)由2×2列联表中数据,计算得到K2的观测值为
k= ≈13.097>10.828,
因此,在犯错误的概率不超过0.001的前提下,认为质量监督员甲在不
在生产现场与产品质量有关系.
【偿训练】两分量M和N的取值分别为{m1,m2}和{n1,n2},在一次
独立性检验中,得出列表如下:
m1 m2 计
n1 200 800 1 000
n2 180 a 180+a
计 380 800+a 1 180+a
最后现,两个分量M和N没有任何关系,则a的可能值是( )
A.200 B.720 C.100 D.180
【解析】选B.计算
K2的观测值k=
当a=200时,k=
≈103.37>3.841,此时两个分类变量M和N有关系;
当a=720时,
知此时两个分类变量M和N没有关系,则a的可能值是720.