统计案例
了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.
1.列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
a
b
a+b
c
d
c+d
总计
a+c
b+d
2.独立性检验
利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
3.独立性检验的一般步骤
(1)根据样本数据列出列联表;
(2)计算随机变量的观测值k,查下表确定临界值k0:
(3)如果,就推断“X与Y有关系”,这种推断犯错误的概率不超过;
否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”.
【注意】(1)通常认为时,样本数据就没有充分的证据显示“X与Y有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
考向一 两类变量相关性的判断
已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算,然后作出判断.
典例1 利用独立性检验来考查两个分类变量和是否有关系时,通过查阅下表来确定“和有关系”的可信度.如果,那么就有把握认为“和有关系”的百分比为
A. B.
C. D.
【答案】D
【解析】∵k>5.024,而在观测值表中对应于5.024的是0.025,1﹣0.025=0.975=97.5%,
∴有97.5%的把握认为“X和Y有关系”.
故选D.
【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,从而得到结果.
典例2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:
附表:
则认为多看手机与人冷漠有关系的把握大约为
A. B.
C. D.
【答案】A
【解析】由题可得K2=≈11.377.
∵11.377>10.828,∴有99.9%的把握认为看电视与人变冷漠有关系.
故答案为A.
【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.
1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到的观测值,根据临界值表,以下说法正确的是
附:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.05
0.010
0.005
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
A.在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”
B.在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关
C.在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关
D.在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关
考向二 独立性检验与概率统计的综合
独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.
典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分别估计两个班级的优秀率;
(2)由以上统计数据填写下面列联表,并问是否有的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助?
参考公式及数据:
,其中.
【答案】(1)甲、乙两班的优秀率分别为和;(2)列联表见解析,没有的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
【解析】(1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为,
乙班优秀人数为25人,优秀率为,
所以甲、乙两班的优秀率分别为和.
(2)列联表如下:
因为,
所以由参考数据知,没有的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
典例4 为调查某社区居民的业余生活状况,研究这一社区居民在20:00~22:00时间段的休闲方式与性别的关系,随机调查了该社区80人,得到下面的数据表:
(1)根据以上数据,能否有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关系”?
(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量,求的数学期望和方差.
附:
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1)有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关”;(2).
【解析】(1)根据样本提供的2×2列联表得:
.
所以有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关”.
(2)由题意得:,且,
所以.
【解题必备】本题主要考查独立性检验及其应用、二项分布的期望与方差,考查了分析问题与解决问题的能力.其中使用统计量作2×2列联表的独立性检验的步骤是:
①检查2×2列联表中的数据是否符合要求;
②由公式计算的值;
③将的值与临界值表中的数据进行对比.另外需要注意回归分析也常在高考中出现.
2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题.中国高中生答题情况是:选择家的占、朋友聚集的地方占、个人空间占.美国高中生答题情况是:朋友聚集的地方占、家占、个人空间占.如下表:
在家里最幸福
在其他场所幸福
合计
中国高中生
美国高中生
合计
(1)请将列联表补充完整,试判断能否有的把握认为“恋家”与否与国别有关;
(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出4人接受进一步调查,再从4人中随机抽取2人到中国交流学习,求2人中含有在“个人空间”感到幸福的学生的概率.
附:,其中.
0.050
0.025
0.010
0.001
3.841
5.024
6.635
10.828
1.观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是
A. B.
C. D.
2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有以上的把握认为这个结论是成立的.下列说法中正确的是
A.100个心脏病患者中至少有99人打酣
B.1个人患心脏病,那么这个人有99%的概率打酣
C.在100个心脏病患者中一定有打酣的人
D.在100个心脏病患者中可能一个打酣的人都没有
3.已知两个统计案例如下:
①为了探究患肺炎与吸烟的关系,调查了名岁以上的人,调查结果如下表:
患肺炎
未患肺炎
总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:
母亲身高(cm)
159
160
160
163
159
154
159
158
159
157
女儿身高(cm)
158
159
160
161
161
155
162
157
162
156
则对这些数据的处理所应用的统计方法是
A.①回归分析,②取平均值 B.①独立性检验,②回归分析
C.①回归分析,②独立性检验 D.①独立性检验,②取平均值
4.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检
每年未体检
合计
老年人
7
年轻人
6
合计
50
已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是
A. B.
C. D.
5.为了解某班学生喜爱打篮球是否与性别有关,对本班人进行了问卷调查得到了下表:
喜爱打篮球
不喜爱打篮球
合计
男生
女生
合计
参考公式:
,其中.
临界值表:
根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是
A. B.
C. D.
6.为了普及环保知识,增强环保意识,某大学从理工类专业的A班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:
优秀
非优秀
总计
A班
14
6
20
B班
7
13
20
总计
21
19
40
附:参考公式及数据:
(1)统计量:
,其中.
(2)独立性检验的临界值表:
P(K2≥k0)
0.050
0.010
k0
3.841
6.635
则下列说法正确的是
A.有99%的把握认为环保知识测试成绩与专业有关
B.有99%的把握认为环保知识测试成绩与专业无关
C.有95%的把握认为环保知识测试成绩与专业有关
D.有95%的把握认为环保知识测试成绩与专业无关
7.假设有两个分类变量和的列联表为:
总计
总计
对同一样本,以下数据能说明与有关系的可能性最大的一组为
A. B.
C. D.
参考公式:,其中.
8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
根据表中数据得到,已知,.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为
A. B.
C. D.
9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
同意限定区域停车
不同意限定区域停车
合计
男
20
5
25
女
10
15
25
合计
30
20
50
则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________.
附:,其中.
0.50
0.40
0.25
0.15
0.10
0.455
0.708
1.323
2.072
2.706
0.05
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
10.已知下列命题:
①在线性回归模型中,相关指数表示解释变量对于预报变量的贡献率,越接
近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数的绝对值就越接近于1;
③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均减少0.5个单位;
④对分类变量与,它们的随机变量的观测值来说, 越小,“与有关系”的把握程度越大.
其中正确命题的序号是__________.
11.一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下列联表:
喜欢游泳
不喜欢游泳
合计
男生
40
女生
30
合计
已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为.
(1)请将上述列联表补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.
(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取2人,求恰有1人喜欢游泳的概率.
附:
0.10
0.050
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)
经常使用
偶尔或不用
合计
30岁及以下
70
30
100
30岁以上
60
40
100
合计
130
70
200
(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为市使用共享单车情况与年龄有关?
(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.
(i)分别求这5人中经常使用、偶尔或不用共享单车的人数;
(ii)从这5人中,再随机选出2人赠送一件礼品,求选出的2人中至少有1人经常使用共享单车的概率.
参考公式:,其中.
参考数据:
0.15
0.10
0.05
0.025
0.010
2.072
2.706
3.841
5.024
6.635
13.某省高考改革实施方案指出:该省高考考生总成绩将由语文、数学、外语3门统一高考成绩和学生自主选择的学业水平等级性考试科目共同构成,该省教育厅为了解正在读高中的学生家长对高考改革方案所持的赞成态度,随机从中抽取了100名城乡家长作为样本进行调查,调查结果显示样本中有25人持不赞成意见,如图是根据样本的调查结果绘制的等高条形图.
(1)根据已知条件与等高条形图完成下面的列联表,并判断我们能否有95%的把握认为“赞成高考改革方案与城乡户口有关”?
注:,其中.
(2)用样本的频率估计概率,若随机在全省不赞成高考改革的家长中抽取3个,记这3个家长中是城镇户口的人数为,试求的分布列及数学期望.
1.(2017年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg).其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件:“旧养殖法的箱产量低于50kg,新养殖法的箱产量不低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:,
2.(2018年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
超过
不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:,
变式拓展
1.【答案】D
【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可.
2.【答案】(1)见解析;(2).
【解析】(1)由已知得:
在家里最幸福
在其他场所幸福
合计
中国高中生
22
33
55
美国高中生
9
36
45
合计
31
69
100
∴,
【思路点拨】(1)根据题意填写列联表,计算观测值,对照临界值表得出结论;
(2)用分层抽样方法抽出4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为,再设“含有在‘个人空间’感到幸福的
学生”为事件,求出基本事件数,即可求得概率值.
考点冲关
1.【答案】D
【解析】在等高条形图中,x1,x2所占比例相差越大,分类变量x,y有关系的把握越大.
故答案为D
【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识的掌握水平和分析推理能力.
(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大.
2.【答案】D
【解析】利用独立性检验的结论可得:若“打酣与患心脏病有关”的结论,并且有以上的把握认为这个结论是成立的,则在100个心脏病患者中可能一个打酣的人都没有.
本题选择D选项.
【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.
3.【答案】B
【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选B.
4.【答案】D
【解析】因为,
所以.
故选D.
【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得a,b,c,d,e,f再判断各选项.
5.【答案】A
6.【答案】C
【解析】因为,所以3.841