专题 31 概率和统计【文】
十年大数据*全景展示
年 份 题号 考 点 考 查 内 容
文 6[来源:Z§xx§k.Com] 概率 古典概型概率的计算[来源:学*科*网]
2011[来源:Z#xx#k.Com][来源:学+科+
网 Z+X+X+K] 文 19 频数分布表 频数分布表,频率与概率
2012 文 3 变量间的相关关系 变量间的相关系数的计算
文 18 频数分布表 给出样本频数表求样本均值,频率与概率,互斥事件的概率
2013 文 3 概率 古典概型概率的计算
2013
卷 1
文 18 统计 茎叶图,利用样本估计总体
文 13 概率 古典概型概率的计算
2013 卷 2
文 19 统计 频率分布直方图及其应用
文 13 概率 古典概型概率的计算
卷 1
文 18 频率分布直方图 频率分布直方图,用样本估计总体,平均数与方差的计算
文 13 概率 古典概型概率的计算
2014
卷 2
文 19 茎叶图,频率与概率 茎叶图及其应用,利用频率估计概率
文 4 概率 古典概型概率的计算
卷 1
文 19 变量间的相关关系 非线性拟合;线性回归方程
文 3 统计 统计知识,柱形图
2015
卷 2
文 18 频率分布直方图 频率分布直方图,用样本估计总体,利用频率估计概率
文 3 概率 古典概型概率的计算
卷 1
文 19 统计 条形统计图及其应用
文 8 概率 几何概型概率的计算
卷 2
文 18 频数分布表 频数分布表,利用频率估计概率,平均数的计算
文 4 统计 平均数的计算,统计图及其应用
文 5 概率 几何概型概率的计算
2016
卷 3
文 18 变量间的相关关系 线性相关与线性回归方程的求法与应用
文 2 统计 样本特征数
文 4 概率 古典概型的概率计算卷 1
文 19 变量间的相关关系 相关系数的计算,方差均值计算
文 11 概率 古典概型的概率计算
卷 2
文 19
频率分布直方图,统计
案例
频率分布直方图及其应用,统计案例及其应用
2017
卷 3 文 3 统计 折线图统计图的应用文 18 频数分布表,概率 频数分布表,利用频率估计概率
文 3 统计 扇形统计图及其应用
卷 1
文 19 频率分布直方图 频率分布直方图及其应用,用样本估计总体
卷 2 文 18 变量间的相关关系 线性回归方程及其应用
文 5 概率 事件的基本关系和概率的计算
文 14 抽样方法 简单随机抽样的选择
2018
卷 3
文 18 茎叶图和独立性检验 茎叶图的应用,统计案例及其应用
文 6 抽样方法 系统抽样的应用
卷 1
文 17 独立性检验 统计案例及其应用
文 4 概率 古典概型的概率计算
文 5 推理与证明 演绎推理
文 14 概率 利用统计数据进行概率的估计
卷 2
文 19 统计与概率 频数分布表,平均数与标准差的估计
文 3 概率 古典概型的概率计算
文 4 统计 抽样数据的统计
2019
卷 3
文 17 频率分布直方图 频率分布直方图,用样本平均数估计总体的平均数
文 4 概率 古典概型的概率计算
文 5 变量间的相关关系 由散点图选择回归模型卷 1
文 17 频数分布表,概率 频数分布表,利用频率估计概率,根据平均值作出决策
理 3 文 4 概率 概率的应用
卷 2
文 18 变量间的相关关系 平均数的估计,相关系数的计算,抽样方法的选取
2020
卷 3 文 18 独立性检验 统计案例及其应用
大数据分析*预测高考
考 点 出现频率 2021 年预测
考点 103 随机抽样 23 次考 3 次
考点 104 用样本估计总体 23 次考 11 次
考点 105 变量间的相关关系 23 次考 12 次
考点 106 随机事件的概率、古典概型、几何概型 23 次考 5 次
考点 107 独立性检验 23 次考 1 次
2021 年在选择题和填空题中仍会重
点考查各种统计图表、古典概型或几
何概型及其概率计算,在解答题中重
点考查频率分布直方图及其应用(与
概率相结合),或与统计案例相结
合.十年试题分类*探求规律
考点 103 随机抽样
1.(2019 全国 1 文 6)某学校为了解 1 000 名新生的身体素质,将这些学生编号为 1,2,…,1 000,从这
些新生中用系统抽样方法等距抽取 100 名学生进行体质测验.若 46 号学生被抽到,则下面 4 名学生中被抽
到的是
A.8 号学生 B.200 号学生 C.616 号学生 D.815 号学生
【解析】因为从1000名学生从中抽取一个容量为100的样本,所以系统抽样的分段间隔为 ,
因为46号学生被抽到,则根据系统抽样的性质可知,第一组随机抽取一个号码为6,
以后每个号码都比前一个号码增加10,所有号码数是以6为首项,以10为公差的等差数列,
设其数列为 ,则 ,
当 时, ,即在第62组抽到616.故选C.
2.(2015 湖北)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米 1534 石,
验得米内夹谷,抽样取米一把,数得 254 粒内夹谷 28 粒,则这批米内夹谷约为
A.134 石 B.169 石 C.338 石 D.1365 石
【答案】B【解析】依题意,这批米内夹谷为 (石).
3.(2015 北京)某校老年,中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体情况,在
抽取的样本中,青年教师有 320 人,则该样本的老年教师人数为
A.90 B.100 C.180 D.300
类别 人数
老年教师 900
中年教师 1800
青年教师 1600
合计 4300
【答案】C【解析】由题意,总体中青年教师与老年教师比例为 ;设样本中老年教师的人数为
,由分层抽样的性质可得总体与样本中青年教师与老年教师的比例相等,即 ,解得 .
4.(2015 四川)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,
拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是
1000 10100
=
{ }na 6 10 1 10 4na n n= + − = −( )
62n = 62 616a =
28 1534 169254
× ≈
1600 16
900 9
=
x 320 16
9x
= 180x =A.抽签法 B.系统抽样法 C.分层抽样法 D.随机数法
【答案】C【解析】因为要了解三个年级之间的学生视力是否存在显著差异,所以采用分层抽样的方法最合
理.
5.(2015 陕西)某中学初中部共有 110 名教师,高中部共有 150 名教师,其性别比例如图所示,则该校女
教师的人数是
A.93 B.123 C.137 D.167
【答案】C【解析】因为该校女教师的人数为 .
6.(2014 广东)为了解 1000 名学生的学习情况,采用系统抽样的方法,从中抽取容量为 40 的样本,则分
段的间隔为
A.50 B.40 C.25 D.20
【答案】C【解析】由 ,可得分段的间隔为 25.故选 C.
7.(2014 广东)已知某地区中小学生人数和近视情况分别如图 1 和图 2 所示,为了解该地区中小学生的近
视形成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别是
A.200,20 B.100,20 C.200,10 D.100,10
【答案】A【解析】所抽人数为 ,近视人数分别为小学生
,初中生 ,高中生 ,∴抽取的高中生近视人数为
,故选 A.
8.(2014 湖南)对一个容器为 的总体抽取容量为 的样本,当选取简单随机抽样、系统抽样和分层抽样
110 70% 150 (1 60%) 77 60 137× + × − = + =
1000 2540
=
(3500 2000 4500) 2% 200+ + × =
3500 10% 350× = 4500 30% 1350× = 2000 50% 1000× =
1000 2% 20× =
N n三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为 ,则( )
A. B. C. D.
【答案】D【解析】根据抽样方法的概念可知,简单随机抽样、系统抽样和分层抽样三种抽样方法,每个个
体被抽到的概率都是 ,故 ,故选 D.
9.(2013 新课标 1)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调
查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异
不大,在下面的抽样方法中,最合理的抽样方法是
A、简单随机抽样 B、按性别分层抽样 C、按学段分层抽样 D、系统抽样
【答案】C【解析】因该地区小学、初中、高中三个学段学生的视力情况有较大差异,故最合理的抽样方法
是按学段分层抽样,故选 C.
10.(2018 全国卷Ⅲ)某公司有大量客户,且不同龄段客户对其服务的评价有较大差异.为了解客户的评价,
该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样
方法是________.
【答案】分层抽样【解析】因为不同年龄的客户对公司的服务评价有较大差异,所以需按年龄进行分层抽
样,才能了解到不同年龄段客户对公司服务的客观评价.
11.(2017 江苏)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为 200,400,300,100 件,
为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取 60 件进行检验,则应从丙种型号的产品
中抽取 件.
【答案】18【解析】应从丙种型号的产品中抽取 件.
12.(2016 年北京)某网店统计了连续三天售出商品的种类情况:第一天售出 19 种商品,第二天售出 13 种
商品,第三天售出 18 种商品;前两天都售出的商品有 3 种,后两天都售出的商品有 4 种,则该网店
①第一天售出但第二天未售出的商品有______种;
②这三天售出的商品最少有_______种.
【答案】①16;②29 【解析】①由于前二天都售出的商品有 3 种,因此第一天售出的有 19-3=16 种商品第
二天未售出;答案为 1 6.
②同①第三售出的商品中有 14 种第二天未售出,有 1 种商品第一天未售出,三天总商品种数最少时,是第
三天中 14 种第二天未售出的 商品都是第一天售出过的,此时商品总数为 29.分别用 表示第一、二、, ,A B C
1 2 3, ,p p p
1 2 3p p p= < 2 3 1p p p= < 1 3 2p p p= < 1 2 3p p p= =
n
N 1 2 3p p p= =
30060 181000
× =三天售出的商品,如图最少时的情形.故答案为 29.
13.(2014 天津)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该
校四个年级的本科生中抽取一个容量为 300 的样本进行调查.已知该校一年级、二年级、三年级、四年级
的本科生人数之比为 4:5:5:6,则应从一年级本科生中抽取_______名学生.
【答案】60【解析】应从一年级抽取 名.
14.(2012 江苏)某学校高一、高二、高三年级的学生人数之比为 ,现用分层抽样的方法从该校高中三个
年级的学生中抽取容量为 50 的样本,则应从高二年级抽取 名学生.
【答案】15【解析】由题意得高二年级的学生人数占该学校高中人数的 ,利用分层抽样的有关知识得应
从高二年级抽取 50× =15 名学生.
15.(2012 浙江)某个年级有男生 560 人,女生 420 人,用分层抽样的方法从该年级全体学生中抽取一个容
量为 2 80 的样本,则此样本中男生人数为____________.
【答案】160【解析】总体中男生与女生的比例为 ,样本中男生人数为 .
考点 104 用样本估计总体
16.(2020 全国Ⅲ文 3)设一组样本数据 的方差为 ,则数据 的方
差为 ( )
A. B. C. D.
【答案】C
【思路导引】根据新数据与原数据关系确定方差关系,即得结果.
【解析】因为数据 的方差是数据 的方差的 倍,
所以所求数据方差为 ,故选:C.
17.(2020 全国Ⅲ理 3)在一组样本数据中, 出现的频率分别为 ,且 ,
C B
A
13
914
2
4:3 4280 1607
× =
4 604 5 5 6300´ =+ + +
3 3 4: :
10
3
10
3
1 2, , , nx x x 0.01 1 210 ,10 , ,10 nx x x
0.01 0.1 1 10
( 1,2, , )iax b i n+ = , ( 1,2, , )ix i n= , 2a
210 0.01=1×
1, 2 , 3 , 4 1 2 3 4, , ,p p p p ∑
=
=
4
1
1
i
ip则下面四种情形中,对应样本的标准差最大的一组是 ( )
A. B.
C. D.
【答案】B
【思路导引】计算出四个选项中对应数据的平均数和方差,由此可得出标准差最大的一组.
【解析】对于 A 选项,该组数据的平均数为 ,方差为
;对于 B 选项,该组数据的
平均数为 ,方差为
;对于 C 选项,该组数据的
平均数为 ,方差为
;对于 D 选项,该组数据
的平均数为 ,方差为
,因此 B 选项这一组的标
准差最大,故选 B.
18.(2020 天津 4)从一批零件中抽取 80 个,测量其直径(单位: ),将所得数据分为 9 组:
,并整理得到如下频率分布直方图,则在被抽取的零
件中,直径落在区间 内的个数为( )
1 4 2 30.1, 0.4p p p p= = = = 1 4 2 30.4 , 0.1p p p p= = = =
1 4 2 30.2 , 0.3p p p p= = = = 1 4 2 30.3 , 0.2p p p p= = = =
( ) ( )1 4 0.1 2 3 0.4 2.5Ax = + × + + × =
( ) ( ) ( ) ( )2 2 2 22 1 2.5 0.1 2 2.5 0.4 3 2.5 0.4 4 2.5 0.1 0.65As = − × + − × + − × + − × =
( ) ( )1 4 0.4 2 3 0.1 2.5Bx = + × + + × =
( ) ( ) ( ) ( )2 2 2 22 1 2.5 0.4 2 2.5 0.1 3 2.5 0.1 4 2.5 0.4 1.85Bs = − × + − × + − × + − × =
( ) ( )1 4 0.2 2 3 0.3 2.5Cx = + × + + × =
( ) ( ) ( ) ( )2 2 2 22 1 2.5 0.2 2 2.5 0.3 3 2.5 0.3 4 2.5 0.2 1.05Cs = − × + − × + − × + − × =
( ) ( )1 4 0.3 2 3 0.2 2.5Dx = + × + + × =
( ) ( ) ( ) ( )2 2 2 22 1 2.5 0.3 2 2.5 0.2 3 2.5 0.2 4 2.5 0.3 1.45Ds = − × + − × + − × + − × =
mm
[5.31,5.33),[5.33,5.35), ,[5.45,5.47],[5.47,5.49]
[5.43,5.47)A.10 B.18 C.20 D.36
【答案】B
【思路导引】由题意首先确定直径落在区间 之间的零件频率,然后计算其个数即可.
【解析】由题意可得,直径落在区间 之间的零件频率为: ,
则区间 内零件的个数为: ,故选 B.
19.(2020 新高考山东海南 9)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续 11
天复工复产指数折线图,下列说法正确的是 ( )
A.这 11 天复工指数和复产指数均逐日增加
B.这 11 天期间,复产指数增量大于复工指数的增量
C.第 3 天至第 11 天复工复产指数均超过 80%
D.第 9 天至第 11 天复产指数增量大于复工指数的增量
【答案】CD
【解析】
【分析】注意到折线图中有递减部分,可判定 A 错误;注意考查第 1 天和第 11 天的复工复产指数的差的大
小,可判定 B 错误;根据图象,结合复工复产指数的意义和增量的意义可以判定 CD 正确.
【详解】由图可知,第 1 天到第 2 天复工指数减少,第 7 天到第 8 天复工指数减少,第 10 天到第 11 复工
指数减少,第 8 天到第 9 天复产指数减少,故 A 错误;
由图可知,第一天的复产指标与复工指标的差大于第 11 天的复产指标与复工指标的差,所以这 11 天期间,
复产指数增量小于复工指数的增量,故 B 错误;
由图可知,第 3 天至第 11 天复工复产指数均超过 80%,故 C 正确;
由图可知,第 9 天至第 11 天复产指数增量大于复工指数的增量,故 D 正确.
[ )5.43,5.47
[ )5.43,5.47 ( )6.25 5.00 0.02 0.225+ × =
[ )5.43,5.47 80 0.225 18× =20.(2018 全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解
该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【答案】A【解析】通解 设建设前经济收入为 ,则建设后经济收入为 ,则由饼图可得建设前种植收入
为 ,其他收入为 ,养殖收入为 .建设后种植收入为 ,其他收入为 ,养殖收入为
,养殖收入与第三产业收入的总和为 ,所以新农村建设后,种植收入减少是错误的.故选 A.
优解 因为 ,所以新农村建设后,种植收入增加,而不是减少,所以 A 是错误的.故选
A.
21.(2017 新课标Ⅰ)为评估一种农作物的种植效果,选了 块地作试验田.这 块地的亩产量(单位:kg)
分别为 , ,…, ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是
A. , ,…, 的平均数 B. , ,…, 的标准差
C. , ,…, 的最大值 D. , ,…, 的中位数
【答案】B【解析】由统计知识可知,评估这种农作物亩产量稳定程度的指标是标准差,选 B.
22.(2017 新课标Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了 2014 年 1 月
至 2016 年 12 月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
a 2a
0.6a 0.04a 0.3a 0.74a 0.1a
0.6a 1.16a
0.6 0.37 2< ×
n n
1x 2x nx
1x 2x nx 1x 2x nx
1x 2x nx 1x 2x nx根据该折线图,下列结论错误的是
A.月接待游客逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在 7,8 月
D.各年 1 月至 6 月的月接待游客量相对于 7 月至 12 月,波动性更小,变化比较平稳
【答案】A【解析】由折线图,7 月份后月接待游客量减少,A 错误,故选 A.
23.(2017 山东)如图所示的茎叶图记录了甲、乙两组各 5 名工人某日的产量数据(单位:件).若这两组
数据的中位数相等,且平均值也相等,则 x 和 y 的值分别为
A.3,5 B.5,5 C.3,7 D.5,7
【答案】A【解析】甲组:56,62,65, ,74,乙组:59,61,67, ,78.要使两组数据的中
位数相等,则 ,所以 ,
又 ,解得 ,选 A.
24.(2016 年全国 III 卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平
均最低气温的雷达图.图中 A 点表示十月的平均最高气温约为 15℃,B 点表示四月的平均最低气温约为
5℃.下面叙述不正确的是
70 x+ 60 y+
65 60 y= + 5y =
56 62 65 (70 ) 74 59 61 67 65 78
5 5
x+ + + + + + + + += 3x =A.各月的平均最低气温都在 0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于 20℃的月份有 5 个
【答案】D【解析】由图可知 0℃在虚线框内,所以各月的平均最低气温都在 0℃以上,A 正确;由图可知
七月的平均温差比一月的平均温差大,B 正确;由图可知三月和十一月的平均最高气温都约为 10℃,基本
相同,C 正确;由图可知平均最高气温高于 20℃的月份不是 5 个,D 不正确,故选 D.
25.(2016 年北京)某学校运动会的立定跳远和 30 秒跳绳两个单项比赛分成预赛和决赛两个阶段.下表为 10
名学生的预赛成绩,其中有三个数据模糊.
学生序号 1 2 3 4 5 6 7 8 9 10
立定跳远(单位:米)
1.9
6
1.9
2
1.8
2
1.8
0
1.7
8
1.7
6
1.7
4
1.7
2
1.6
8
1.6
0
30 秒跳绳(单位:次) 63 a 75 60 63 72 70 a−1 b 65
在这 10 名学生中,进入立定跳远决赛的有 8 人,同时进入立定跳远决赛和 30 秒跳绳决赛的有 6 人,则
A.2 号学生进入 30 秒跳绳决赛 B.5 号学生进入 30 秒跳绳决赛
C.8 号学生进入 30 秒跳绳决赛 D.9 号学生进入 30 秒跳绳决赛
【答案】B【解析】由数据可知,进入立定跳远决赛的 8 人为 1~8 号,所以进入 30 秒跳绳决赛的 6 人从 1~8
号里产生.数据排序后可知 3 号,6 号,7 号必定进入 30 秒跳绳决赛,则得分为 63, ,60,63, l 的
5 人中有 3 人进入 30 秒跳绳决赛.若 1 号,5 号学生未进入 30 秒跳绳决赛,则 4 号学生就会进入决赛,与
事实矛盾,所以 l 号,5 号学生必进 入 30 秒跳绳决赛,故选 B.
26.(2016 年山东)某高校调查了 200 名学生每周的自习时间(单位:小时),制成了如图所示的频率分布
a a −直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20), [20,22.5), [22.5,25),
[25,27.5),[27.5,30).根据直方图,这 200 名学生中每周的自习时间不少于 22.5 小时的人数是
A.56 B.60 C.120 D.140
【答案】D【解析】自习时间不少于 22.5 小时的有 ,故选 D.
27.(2015 新课标 2)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位:万吨)柱形图,以
下结论不正确的是
A.逐年比较,2008 年减少二氧化硫排放量的效果最显著
B.2007 年我国治理二氧化硫排放显现成效
C.2006 年以来我国二氧化硫年排放量呈减少趋势
D.2006 年以来我国二氧化硫年排放量与年份正相关
【答案】D【解析】结合图形可知,2007 年与 2008 年二氧化硫的排放量差距明显,显然 2008 年减少二氧
化硫排放量的效果最显著;2006 年二氧化硫的排放量最高,从 2006 年开始二氧化硫的排放量开始整体呈下
降趋势,显然 A、B、C 正确,不正确的时 D,不是正相关.
28.(2015 湖南)在一次马拉松比赛中,35 名运动员的成绩(单位:分钟)的茎叶图如图所示.
200 (0.16 0.08 0.04) 2.5 140× + + × =若将运动员按成绩由好到差编为 1~35 号,再用系统抽样方法从中抽取 7 人,则其中成绩在区间[139,151]
上的运动员人数为
A.3 B.4 C.5 D.6
【答案】B【解析】第一组 ,第二组 ,第三组
,第四组 ,第五组 ,第六组
,第七组 ,故成绩在 上恰好有 4 组,故有 4 人,
故选 B.
29.(2013 福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分为 6 组:[40,50),
[50,60), [60,70), [70,80), [80,90), [90,100]加以统计,得到如图所示的频率分布直方图,已知
高一年级共有学生 600 名,据此估计,该模块测试成绩不少于 60 分的学生人数为
A.588 B.480 C.450 D.120
【答案】B【解析】由图知道 60 分以上人员的频率为后 4 项频率的和,由图知道
,故分数在 60 以上的人数
为 600×0.8=480 人.
30.(2013 山东)将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91,现场
做的 9 个分数的茎叶图后来有一 个数据模糊,无法辨认,在图中以 表示:
则 7 个剩余分数的方差为
A. B. C.36 D.
【答案】B【解析】由图可知去掉的两个数是 87,99,所以
, .
(0.03 0.025 0.015 0.01)*10 0.8P = + + + =
x
9 4 0 1 0 x 9 1
8 7 7
116
9
36
7
6 7
7
(130,130,133,134,135) (136,136,138,138,138)
(139,141,141,141,142) (142,142,143,143,144) (144,145,145,145,146)
(146,147,148,150,151) (152,152,153,153,153) [139,151]
87 90 2 91 2 94+ × + × +
90 91 7x+ + = × 4x =.
31.(2012 陕西)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样
本的中位数、众数、极差分别是
A.46,45,56 B.46,45,53 C.47,45,56 D.45,47,53
【答案】A【解析】由概念知中位数是中间两数的平均数,即 众数是 45,极差为 68-12=56.所
以选 A.
32.(2020 上海 8)已知有四个数 ,这四个数的中位数为 3,平均数为 4,则 .
【答案】36
【解析】设 ,则 ,解得: ,
,解得: ,所以 .
故答案为:36
33.(2020 江苏 3)已知一组数据 的平均数为 ,则 的值是 .
【答案】
【解析】由题意得 ,解得 .
34.(2018 江苏)已知 5 位裁判给某运动员打出的分数的茎叶图如图所示,那么这 5 位裁判打出的分数的平均
数为 .
【答案】90【解析】由茎叶图可得分数的平均数为 .
6 1 7 8
5 0 0 1 1 4 7 9
4 5 5 5 7 7 8 8 9
3 1 2 4 4 8 9
2 0 2 3 3
1 2 5
45+47 =462
,
110
99
9
8
2 2 2 2 21 36[(87 91) (90 91) 2 (91 91) 2 (94 91) 2]7 7s = − + − × + − × + − × =
1,2, ,a b ab =
a b≤ 2 32
a+ = 4a =
1 2 44
a b+ + + = 9b = 36ab =
4 , 2 , 3 2 , 5 , 6a a− 4 a
2
( )4 2 3 5 6 45
a a+ + − + + = 2a =
89 89 90 91 91 905
+ + + + =35.(2019 全国 II 文 19)某行业主管部门为了解本行业中小企业的生产情况,随机调查了 100 个企业,得
到这些企业第一季度相对于前一年第一季度产值增长率 y 的频数分布表.
的分组
企业数 2 24 53 14 7
(1)分别估计这类企业中产值增长率不低于 40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代
表).(精确到 0.01)
附: .
【解析】(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为
,产值负增长的企业频率为 ,用样本频率分布估计总体分布得这类企业中产值增
长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2) ,
,
,所以这类企业产值增长率的平均数与标准差的估计值分别为30%,
17%.
36.(2015 广东)已知样本数据 , , , 的均值 ,则样本数据 , , ,
的均值为 .
【答案】11【解析】由 得
.
37.(2015 湖北)某电子商务公司对 10000 名网络购物者 2014 年度的消费情况进行统计,发现消费金额(单
位:万元)都在区间 内,其频率分布直方图如图所示.
(1)直方图中的 = .
(2)在这些购物者中,消费金额在区间 内的购物者的人数为 .
y [ 0.20,0)− [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80)
74 8.602≈
14 7 0.21100
+ = 2 0.02100
=
1 ( 0.10 2 0.10 24 0.30 53 0.50 14 0.70 7) 0.30100y = − × + × + × + × + × =
( )5 22
1
1
100 i i
i
s n y y
=
= −∑ 2 2 2 2 21 ( 0.40) 2 ( 0.20) 24 0 53 0.20 14 0.40 7100
= − × + − × + × + × + × =0.0296
0.0296 0.02 74 0.17s = = × ≈
1x 2x ⋅⋅⋅ nx 5x = 12 1x + 22 1x + ⋅⋅⋅
2 1nx +
5x = 1 2(2 1) (2 1) (2 1)nx x x
n
+ + + +⋅⋅⋅+ +
1 22 1 2 1 11nx x x xn
+ +⋅⋅⋅+= × + = + =
[0.3,0.9]
a
[0.5,0.9]【答案】(Ⅰ)3;(Ⅱ)6000【解析】(Ⅰ)
,解得 ;(Ⅱ)区间 内的频率为
,则该区间内购物者的人数为 .
38.(2014 江苏)为了了解一片经济的生长情况,随机抽测了其中 60 株树木的底部周长(单位:cm),所得
数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的 60 株树木中,有 株树木的底部周
长小于 100cm.
【答案】24【解析】由频率分布直方图可得树木底部周长小于 100cm 的频率是(0.025 +0.015)×10=0.4,
又样本容量是 60,所以频数是 0.4×60=24.
39.(2013 辽宁)为了考察某校各班参加课外书法小组的人数,在全校随机抽取 5 个班级,把每个班级参
加该小组的人数作为样本数据.已知样本平均数为 7,样本方差为 4,且样本数据互不相同,则样本数据中
的最大值为 .
【答案】10【解析】设五个班级的数据分别为 .由平均数方差的公式得
, ,显然各个括号为整数.设
分别为 , ,
则 .
a b c d e< < < <
75
a b c d e+ + + + =
2 2 2 2 2( 7) ( 7) ( 7) ( 7) ( 7) 45
a b c d e− + − + − + − + − =
7, 7, 7, 7, 7a b c d e− − − − − , , , ,p q r s t ( , , , , )p q r s t Z∈
2 2 2 2 2
0 (1)
20 (2)
p q r s t
p q r s t
+ + + + =
+ + + + =
0.1 1.5 0.1 2.5 0.1 0.1 2a× + × + × + ×
0.1 0.8 0.1 0.2 1+ × + × = 3a = [0.5,0.9]
1 0.1 1.5 0.1 2.5 0.6− × − × = 10000 0.6 6000× =设 =
= ,因为数据互不相同,分析 的构
成,得 恒成立,因此判别式 ,得 ,所以 ,即 .
40.(2012 山东文)右图是根据部分城市某年 6 月份的平均气温(单位:℃)数据得到的样本频率分布直方图,
其中平均气温的范围是[20.5,26.5],样本数据的分组为 , , , ,
, .已知样本中平均气温低于 22.5℃的城市个数为 11,则样本中平均气温不低于
25.5℃的城市个数为____.
【答案】9【解析】最左边两个矩形面积之和为 0.10×1+0.12×1=0.22,总城市数为 11÷0.22=50,最
右面矩形面积为 0.18×1=0.18,50×0.18=9.
41.(2018 全国卷Ⅰ)某家庭记录了未使用节水龙头 50 天的日用水量数据(单位: )和使用了节水龙
头 50 天的日用水量数据,得到频数分布表如下:
未使用节水龙头 50 天的日用水量频数分布表
日用
水量
频数 1 3 2 4 9 26 5
使用了节水龙头 50 天的日用水量频数分布表
日用
水量
频数 1 5 13 10 16 5
(1)在下图中作出使用了节水龙头 50 天的日用水量数据的频率分布直方图:
2 2 2 2( ) ( ) ( ) ( ) ( )f x x p x q x r x s= − + − + − + −
2 2 2 2 24 2( ) ( )x p q r s x p q r s− + + + + + + + 2 24 2 20x tx t+ + − ( )f x
( ) 0f x > 0x 5700500)19(5003800 −=−+= xxy y x
)(,19,5700500
,19,3800 Nxxx
xy ∈
>−
≤=
n
3: 2
n
n
n n数为 .
比较两个平均数可知,购买 1 台机器的同时应购买 19 个易损零件.
44.(2016 年北京)某市民用水拟实行阶梯水价.每人用水量中不超过 立方米的部分按 4 元/立方米收费,
超出 立方米的部分按 10 元/立方米收费.从该市随机调查了 10000 位居民,获得了他们某月的用水量数据,
整理得到如下频率分布直方图:
(Ⅰ)如果 为整数,那么根据此次调查,为使 80%以上居民在该月的用水价格为 4 元/立方米, 至少定
为多少?
(Ⅱ)假设同组中的每个数据用该组区间的右端点值代替.当 =3 时,估计该市居民该月的人均水费.
【解析】(I)由用水量的频率分布直方图知,
该市居民该月用水量在区间 , , , , 内的频
率依次为 , , , , .
所以该月用水量不超过 立方米的居民占 %,用水量不超过 立方米的居民占 %.
依题意, 至少定为 .
(II)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号 1 2 3 4 5 6 7 8
分组
频率
根据题意,该市居民该月的人均水费估计为:
(元).
4050)104500904000(100
1 =×+×
用水量(立方米)
频率
组距
0.5
0.4
0.3
0.2
0.1
4.543.532.521.510.5O
w
w
w w
w
[ ]0.5,1 ( ]1,1.5 ( ]1.5,2 ( ]2,2.5 ( ]2.5,3
0.1 0.15 0.2 0.25 0.15
3 85 2 45
w 3
[ ]2,4 ( ]4,6 ( ]6,8 ( ]8,10 ( ]10,12 ( ]12,17 ( ]17,22 ( ]22,27
0.1 0.15 0.2 0.25 0.15 0.05 0.05 0.05
4 0.1 6 0.15 8 0.2 10 0.25 12 0.15 17 0.05 22 0.05 27 0.05× + × + × + × + × + × + × + ×
10.5=45.(2015 新课标 2)某公司为了解用户对其产品的满意度,从 两地区分别随机调查了 40 个用户,根
据用户对产品的满意度评分,得分 地区用户满意评分的频率分布直方图和 地区用户满意度评分的频数
分布表.
B 地区用户满意度评分的频数分布表
满意度评
分分组
[50,60) [60,70) [70,80) [80,90) [90,100)
频数 2 8 14 10 6
(Ⅰ)在答题卡上作出 B 地区用户满意度评分的频数分布直方图,并通过直方图比较两地区满意度评分的
平均值及分散程度(不要求计算出具体值,给出结论即可);
(Ⅱ)根据用户满意度评分,将用户的满意度分为三个等级;
满意度评分 低于 70 分 70 分到 80 分 不低于 90 分
满意度等级 不满意 满意 非常满意
估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
【解析】
,A B
A B通过两地区用户满意度评分的频率分布直方图可以看出,B 地区用户满意度评分的平均值高于 A 地区用户
满意度评分的平均值;B 地区用户满意度评分比较集中,而 A 地区用户满意度评分比较分散.
(Ⅱ)A 地区用户的满意度等级为不满意的概率大.
记 表示事件:“A 地区用户的满意度等级为不满意”; 表示事件“B 地区用户的满意度等级为不满
意”.
由直方图得 的估计值为 ,
的估计值为 .
所以 A 地区用户的满意度等级为不满意的概率大.
46.(2015 广东)某城市 户居民的月平均用电量(单位:度),以 , ,
, , , , 分组的频率分布直方图如图 .
(Ⅰ)求直方图中 的值;
(Ⅱ)求月平均用电量的众数和中位数;
(Ⅲ)在月平均用电量为 , , , 的四组用户中,用分层抽样的
方法抽取 户居民,则月平均用电量在 的用户中应抽取多少户?
【解析】(Ⅰ)以题意 ,解得
AC BC
( )AP C (0.01 0.02 0.03) 10 0.6+ + × =
( )BP C (0.005 0.02) 10 0.25+ × =
100 [ )160,180 [ )180,200
[ )200,220 [ )220,240 [ )240,260 [ )260,280 [ ]280,300 2
x
[ )220,240 [ )240,260 [ )260,280 [ ]280,300
11 [ )220,240
20 (0.002 0.0095 0.011 0.0125 0.05 0.0025) 1x× + + + + + + = 0.0075x =(Ⅱ)由图可知,最高矩形的数据组为 ,∴众数是 .
∵ 的频率之和为 ,
由题意设中位数为 ,
∴ ,
得: ,所以月平均用电量的中位数是 .
(Ⅲ)月平均用电量为 的用户有 户,月平均用电量为 的用户
有 户,月平均用电量为 的用户有 户,月平均用电量
为 的用户有 户,抽取比例 ,所以月平均用电量在
的用户中应抽取 户.
考点 105 变量间的相关关系
47.(2020 全国Ⅰ文理 5)某校一个课外学习小组为研究某作物种子的发芽率 和温度 (单位: )的关
系,在 20 个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:
由此散点图,在 至 之间,下面四个回归方程类型中最适宜作为发芽率 和温度 的回归方程类型
的是 ( )
A. B. C. D.
【答案】D
【思路导引】根据散点图的分布可选择合适的函数模型.
【解析】由散点图分布可知,散点图分布在一个对数函数的图像附近,因此,最适合作为发芽率 和温度
的回归方程类型的是 ,故选 D.
48.(2020 全国Ⅱ文理 18)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调
查该地区某种野生动物的数量,将其分成面积相近的 200 个地块,从这些地块中用简单随机抽样的方法抽
[ )220,240 220 240 2302
+ =
[160,220) ( )0.002 0.0095 0.011 20 0.45+ + × =
a
( ) ( )0.002 0.0095 0.011 20 0.0125 220 0.5a+ + × + × − =
224a = 224
[ )220,240 0.0125 20 100 25× × = [ )240,260
0.0075 20 100 15× × = [ )260,280 0.005 20 100 10× × =
[ ]280,300 0.0025 20 100 5× × = 11 1
25 15 10 5 5
= =+ + +
[ )220,240 125 55
× =
y x C°
( )( ), 1, 2 , , 20i ix y i =
10 C° 40 C° y x
y a bx= + 2y a bx= + exy a b= + lny a b x= +
y x
lny a b x= +取 20 个作为样区,调查得到样本数据 ,其中 和 分别表示第 个样区的植物覆
盖面积(单位:公顷)和这种野生动物的数量,并计算得 , , ,
, .
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均
数乘以地块数);
(2)求样本 的相关系数(精确到 );
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动
物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数 , .
【解析】(1)样区野生动物平均数为 ,
地块数为 ,该地区这种野生动物的估计值为 .
(2)样本 的相关系数为 .
(3)由于各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.先将植物覆盖面
积按优中差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样法抽取样本即可.
49.(2018 全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生
产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人,第一组工人用
第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了
如下茎叶图:
( )( ), 1, 2 , , 20i ix y i = ix iy i
∑
=
=
20
1
60
i
ix ∑
=
=
20
1
1200
i
iy ( )∑
=
=−
20
1
2 80
i
i xx
( )∑
=
=−
20
1
2 9000
i
i yy ( )( ) 080
20
1
∑
=
=−−
i
ii yyxx
( )( ), 1, 2 , , 20i ix y i = 0.01
( )( )
( ) ( )∑∑
∑
==
=
−−
−−
=
n
i
i
n
i
i
n
i
ii
yyxx
yyxx
r
1
2
1
2
1 414.12 ≈
20
1
1 1 1200 6020 20i
i
y
=
= × =∑
200 200 60 12000× =
( , )i ix y
20
1
20 20
2 2
1 1
( )( ) 800 2 2 0.94380 9000( ) ( )
i i
i
i i
i i
x x y y
r
x x y y
=
= =
− −
= = = ≈
×− −
∑
∑ ∑(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求 40 名工人完成生产任务所需时间的中位数 ,并将完成生产任务所需时间超过 和不超过 的工人
数填入下面的列联表:
超过 不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?
附: ,
【解析】(1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟,用第
二种生产方式的工人中,有 75%的工人完成生产任务所需时间至多 79 分钟.因此第二种生产方式的效率更
高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分钟,用第二种生
产方式的工人完成生产任务所需时间的中位数为 73.5 分钟.因此第二种生产方式 的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产方
式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致
呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,关于茎 7 大致呈对称
分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完
成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更
高.
以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知 .
m m m
m m
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
−= + + + +
2( ) 0.050 0.010 0.001
3.841 6.635 10.828
P K k
k
≥
79 81 802m
+= =列联表如下:
超过 不超过
第一种生产方式 15 5
第二种生产方式 5 15
(3)由于 ,所以有 99%的把握认为两种生产方式的效率有差异.
50.(2017 新课标Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100
个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记 表示事件“旧养殖法的箱产量低于 50kg”,估计 的概率;
(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关:
箱产量 50kg 箱产量 50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
0.050 0.010 0.001
3.841 6.635 10.828
【解析】(1)旧养殖箱的箱产量低于 50kg 的频率为
m m
新养殖法旧养殖法
频率/组距
箱产量/kg 箱产量/kg
频率/组距
0 35 40 45 50 55 60 65 70
0.068
0.046
0.044
0.020
0.0100.008
0.004
706560555045403530250
0.040
0.0340.032
0.024
0.020
0.014
0.012
2
2 40(15 15 5 5) 10 6.63520 20 20 20K
× − ×= = >× × ×
A A
< ≥
2( )P K k≥
k
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
−= + + + +.
因此,事件 的概率估计值为 0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量 50kg 箱产量 50kg
旧养殖法 62 38
新养殖法 34 66
.
由于 ,故有 99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在 50kg 到 55kg 之间,旧养殖
法的箱产量平均值(或中位数)在 45kg 到 50kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱
产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
51.(2014 新课标 2)某地区 2007 年至 2013 年农村居民家庭纯收入 y(单位:千元)的数据如下表:
年份 2007 2008 2009 2010 2011 2012 2013
年份代号 1 2 3 4 5 6 7
人均纯收入 y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(Ⅰ)求 y 关于 的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析 2007 年至 2013 年该地区农村居民家庭人均纯收入的变化情况,并
预测该地区 2015 年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
,
【解析】(I) 由所给数据计算得 (1+2+3+4+5+6+7)=4
(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3
=9+4+1+0+1+4+9=28
(0.012 0.014 0.024 0.034 0.040) 5 0.62+ + + + × =
A
< ≥
2
2 200 (62 66 34 38) 15.705100 100 96 104K
× × − ×= ≈× × ×
15.705 6.635>
t
t
( )( )
( )
1
2
1
n
i i
i
n
i
i
t t y y
b
t t
∧
=
=
− −
=
−
∑
∑
ˆˆa y bt= −
1
7t =
1
7y =
7
2
1
1
( )
t
t t
=
−∑=
, .
所求回归方程为 .
52.(2014 新课标 1) 从某企业生产的某种产品中抽取 100 件,测量这些产品的一项质量指标值,由测量表
得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
(I)在下表中作出这些数据的频率分布直方图:
(II)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(III)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要
占全部产品的80%”的规定?
【解析】(I)
质量指标值
频率/组距
125115105958575
0.040
0.038
0.036
0.034
0.032
0.030
0.028
0.026
0.024
0.022
0.020
0.018
0.016
0.014
0.012
0.010
0.008
0.006
0.004
0.002
7
1 1
1
( )( )
t
t t y y
=
− −∑ ( 3) ( 1.4) ( 2) ( 1) ( 1) ( 0.7)− × − + − × − + − × −
0 0.1 1 0.5 2 0.9 3 1.6 14+ × + × + × + × =
7
1 1
1
7
2
1
1
( )( ) 14 0.528( )
t
t
t t y y
b
t t
=
=
− −
= = =
−
∑
∑
4.3 0.5 4 2.3a y bt= − = − × =
0.5 2.3y t= +(II)质量指标值的样本平均数为 80×0.06+90×0.26+100×0.38+110×0.22+120×0.08 =100.
质量指标值的样本方差为 =104.
所以这种产品质量指标值的平均数的估计值为 100,方差的估计值为 104.
(III)质量指标值不低于 95 的产品所占比例的估计值为
0.38+0.22+0.08=0.68.
由于该估计值小于 0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于 95 的产品至少要占全
部产品 80%”的规定.
53.(2012 辽宁)电视传媒公司为了解某地区电视观众对某体育节目的收视情况,随机抽取了 100 名观众进
行调查,其中女性有 55 名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:
将日均收看该体育节目时间不低于 40 分钟的观众称为“体育迷”,已知“体育迷”中有 10 名女性.
(I)根据已知条件完成下面 列联表,并据此资料你是否认为“体育迷”与性别有关?
质量指标值
频率/组距
125115105958575
0.040
0.038
0.036
0.034
0.032
0.030
0.028
0.026
0.024
0.022
0.020
0.018
0.016
0.014
0.012
0.010
0.008
0.006
0.004
0.002
22×
x =
2 2 2 2 2( 20) 0.06 0.26+0.38+10 0.22 20 0.08s = − × + × × + ×(- 10)非体育迷 体育迷 合计
男
女
合计
(II)将日均收看该体育节目不低于 50 分钟的观众称为“超级体育迷”,已知“超级体育迷”中有 2 名女性.若
从“超级体育迷”中任意选取 2 人,求至少有 1 名女性观众的概率.
附:
,
【解析】(I)由频率颁布直方图可知,在抽取的 100 人中,“体育迷”有 25 人,从而 2×2 列联表如下:
非体育迷 体育迷 合计
男 30 15 45
女 45 10 55
合计 75 25 100
由 2×2 列联表中数据代入公式计算,得:
因为 3.030
( )
( )( )( )( )
2
2 n ad bcK a b c d a c b d
−= + + + +
( )2P K k≥ 0.050 0.010 0.001
k 3.841 6.635 10.828
2 16 25 43
100 100
+ + =
5 10 12 27
100 100
+ + =
6 7 8 21
100 100
+ + = 7 2 0 9
100 100
+ + =
100 0.20 300 0.35 500 0.45 350x = × + × + × =
2
2 100 (33 8 37 22) 5.820 3.84170 30 55 45K
× × − ×= ≈ >× × ×
95%
100
PM2.5 2SO 3/ mgµ
32 18 4
6 8 12
3 7 10
(1)估计事件“该市一天空气中 浓度不超过 ,且 浓度不超过 ”的概率;
(2)根据所给数据,完成下面 列联表:
(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有
关?
附: ,
【解析】(1)由表格可知,该市 100 天中,空气中的 浓度不超过 75,且 浓度不超过 150 的天
数有 天,
所以该市一天中,空气中的 浓度不超过 75,且 浓度不超过 150 的概率为 ;
(2)由所给数据,可得 列联表为:
合计
64 16 80
10 10 20
2SO
PM2.5
[ ]0,50 ( ]50 ,150 ( ]150 , 475
[ ]0 , 35
( ]35 , 75
( ]75 ,115
PM2.5 75 2SO 150
22×
2SO
PM2.5
[ ]0 ,150 ( ]150 , 475
[ ]0 , 75
( ]75 ,115
99% 2.5PM 2SO
( )
( )( )( )( )dbcadcba
bcadnK ++++
−=
2
2
2.5PM 2SO
32 6 18 8 64+ + + =
2.5PM 2SO 64 0.64100
=
2 2×
2SO
2.5PM
[ ]0,150 ( ]150,475
[ ]0,75
( ]75,115
)( 2 kKP ≥ 050.0 010.0 001.0
k 841.3 635.6 828.10合计 74 26 100
(3)根据 列联表中的数据可得
,
因为根据临界值表可知,有 的把握认为该市一天空气中 浓度与 浓度有关.
2 2×
2 2
2 ( ) 100 (64 10 16 10)
( )( )( )( ) 80 20 74 26
n ad bcK a b c d a c b d
− × × − ×= =+ + + + × × ×
3600 7.4844 6.635481
= ≈ >
99% 2.5PM 2SO