专题 08 概率与统计
—2021 高考数学(理)高频考点、热点题型归类强化
【高频考点及备考策略】
本部分内容在备考时应注意以下几个方面:
(1)掌握三种抽样的特点及相互联系,特别是系统抽样和分层抽样的应用;会用样本的频率分布估计总
体分布,会用样本的数字特征估计总体的数字特征.
(2)了解回归分析及独立性检验的基本思想,认识其统计方法在决策中的应用.
(3)切实掌握随机变量的概念、掌握随机事件的概率、古典概型、几何概型等概率的求法.
(4)掌握离散型随机变量的分布列、期望、方差的求法;掌握条件概率的求法、二项分布、超几何分布
及其概率的求法.
考向预测:
(1)频率分布直方图、茎叶图的绘制及应用;数字特征的求解及应用.
(2)线性回归方程的求解及应用.
(3)古典概型、几何概型、条件概率的概率公式的应用.
(4)离散型随机变量的分布列、均值及方差的计算.
(5)相互独立事件、二项分布、超几何分布与实际问题的交汇问题.
一、统计与统计案例
1.抽样方法
三种抽样方法包括:简单随机抽样、系统抽样、分层抽样.
2.统计图表
必备知识(1)在频率分布直方图中:
①各小矩形的面积表示相应各组的频率,各小矩形的高=
频率
组距;②各小矩形面积之和等于 1;③中位数
左右两侧的直方图面积相等,因此可以估计其近似值.
(2)茎叶图
3.样本的数字特征
(1)在频率分布直方图中:
①众数等于最高的长方形底边中点的横坐标;
②中位数左边和右边的直方图的面积相等,由此可以估计中位数的值;
③平均数的估计值等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
(2)标准差、方差:
如果一组样本数据 x1,x2,…,xn 的平均数是푥,那么,标准差 ,方差
(3)平均数、方差的运算性质:
如果一组数据 x1,x2,…,xn 的平均数是푥,方差是 s2,那么一组新数据 ax1+b,ax2+b,…,axn+b(其中 a,b 是常数)的平
均数是 a푥+b,方差是 a2s2,标准差是|푎|s.
注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,
所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.
(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准
差、方差越大,数据的离散程度越大,越不稳定.
4.回归方程与回归分析
(1)线性相关关系与回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线
叫做回归直线.
(2)回归方程
])()()[(1 22
2
2
1 xxxxxxns n −++−+−=
222
2
2
1
222
2
2
1
22
2
2
1
2 -)(1])[(1])()()[(1 xxxxnxnxxxnxxxxxxns nnn +++=−+++=−++−+−= ①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:方程 是两个具有线性相关关系的变量的一组数据 , ,…,
的回归方程,其中 是待定数.
(3)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心:在具有线性相关关系的数据 , ,…, 中, ,
,则回归直线一定过样本点的中心( , ).
5.相关关系的强与弱
统计中用相关系数 来衡量两个变量之间线性关系的强弱,若相应于变量 的取值 ,变量 的观测值为
,则两个变量的相关系数的计算公式为
当 时,表明变量 和 正相关;当 时,表明变量 和 负相关;
当 ,表明变量 和 负相关相关很强;
当 ,表明变量 和 正相关相关很强;
当 或 ,则相关性一般; 时,相关性较弱.
(当|r|≤1 且|r|越接近于 1,相关程度越强,当|r|≤1 且|r|越接近于 0,相关程度越弱)
6.对残差的理解
①残差就是数据的真实值与预侧值之间的差.
^^^
axby += ),( 11 yx ),( 22 yx ),( nn yx
ba ˆ,ˆ
( )( )
( )
1 1
2 22
1 1
ˆ = ,
ˆˆ .
n n
i i i i
i i
n n
i i
i i
x x y y x y nxy
b
x x x nx
a y bx
= =
= =
− − −
= − −
= −
∑ ∑
∑ ∑
),( 11 yx ),( 22 yx ),( nn yx ∑
=
=
n
i
ixnx
1
1
∑
=
=
n
i
iyny
1
1 x y
r x 0x y
(1 )iy i n≤ ≤ 1
2 2
1
( )( )
( ) ( )
n
i i
i
n
i i
i
x x y y
r
x x y y
=
=
− −
=
− −
∑
∑
0r > x y 0r < x y
[ 1, 0.75]r ∈ − − x y
[0.75,1]r ∈ x y
[ 0.75, 0.30]r ∈ − − [0.3,0.75]r ∈ [ 0.25,0.25]r ∈ −②以残差为纵坐标,样本编号为横坐标作出的图形称为残差图.
③残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说
明模型拟合精度越高,回归方程的预极精度越高.
④各个真实值与预侧值之间的差的平方和 ,叫做残差的平方和,残差的平
方和刻画的是模型的拟合效果,残差的平方和越小,说明模型的拟合效果好;反之,模型的拟合效果越差.
7.相关指数
公式 中, 叫做变量 之间的相关指数.它的大小刻画的是模型拟合效果的好坏,
越大,模型的拟合效果越好; 越小,模型的拟合效果越差。
8.独立性检验
假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联
表)为
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d n
则 ,其中 n=a+b+c+d.
若 K2>3.841,则有 95%的把握说两个事件有关;
若 K2>6.635,则有 99%的把握说两个事件有关;
若 K20)为参数,我们
称 φμ,σ(x)的图象为正态分布密度曲线,简称正态曲线.
【重要结论】
1.离散型随机变量 X 的分布列具有两个性质
①pi≥0,②p1+p2+…+pi+…+pn=1(i=1,2,3,…,n).
2.期望与方差的性质
(1)E(aX+b)=aE(X)+b;D(aX+b)=a2D(X)(a,b 为常数);
(2)X~B(n,p),则 E(X)=np,D(X)=np(1-p);
(3)X 服从两点分布,则 E(X)=p,D(X)=p(1-p).
3.正态曲线的性质
(1)曲线位于 x 轴上方,与 x 轴不相交;
(2)曲线是单峰的,它关于直线 x=μ 对称;
(3)曲线在 x=μ 处达到峰值 1
σ 2π
;
i
n
i
i pEXx
2
1
)(∑
=
−(4)曲线与 x 轴之间的面积为 1;
(5)当 σ 一定时,曲线随着 μ 的变化而沿 x 轴平移,如图甲所示;
(6)当 μ 一定时,曲线的形状由 σ 确定.σ 越小,曲线越“瘦高”,表示总体的分布越集中;σ 越大,曲线
越“矮胖”,表示总体的分布越分散,如图乙所示.
4.正态分布的三个常用数据
P(μ-σ× × ×
95%
100 PM2.5 2SO
3μg/m
PM2.5 75 2SO 150
2 2×(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中 浓度与 浓度有关?
附: ,
【答案】(1) ;(2)答案见解析;(3)有.
【解析】(1)由表格可知,该市 100 天中,空气中的 浓度不超过 75,且 浓度不超过 150 的天
数有 天,
所以该市一天中,空气中的 浓度不超过 75,且 浓度不超过 150 的概率为 ;
(2)由所给数据,可得 列联表为:
合计
64 16 80
99% PM2.5 2SO
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
−= + + + +
0.64
2.5PM 2SO
32 6 18 8 64+ + + =
2.5PM 2SO 64 0.64100
=
2 2×
2SO
2.5PM
[ ]0,150 ( ]150,475
[ ]0,7510 10 20
合计 74 26 100
(3)根据 列联表中的数据可得
,
因为根据临界值表可知,有 的把握认为该市一天空气中 浓度与 浓度有关.
【点睛】本题考查了古典概型的概率公式,考查了完善 列联表,考查了独立性检验,属于中档题.
5、(2020 北京卷·T18)某校为举办甲、乙两项不同活动,分别设计了相应的活动方案:方案一、方案
二.为了解该校学生对活动方案是否支持,对学生进行简单随机抽样,获得数据如下表:
男生 女生
支持 不支持 支持 不支持
方案一 200 人 400 人 300 人 100 人
方案二 350 人 250 人 150 人 250 人
假设所有学生对活动方案是否支持相互独立.
(Ⅰ)分别估计该校男生支持方案一的概率、该校女生支持方案一的概率;
(Ⅱ)从该校全体男生中随机抽取 2 人,全体女生中随机抽取 1 人,估计这 3 人中恰有 2 人支持方案一的
概率;
(Ⅲ)将该校学生支持方案的概率估计值记为 ,假设该校一年级有 500 名男生和 300 名女生,除一年级
外其他年级学生支持方案二的概率估计值记为 ,试比较 与 的大小.(结论不要求证明)
( ]75,115
2 2×
2 2
2 ( ) 100 (64 10 16 10)
( )( )( )( ) 80 20 74 26
n ad bcK a b c d a c b d
− × × − ×= =+ + + + × × ×
3600 7.4844 6.635481
= ≈ >
99% 2.5PM 2SO
2 2×
0p
1p 0p 1p【答案】(Ⅰ)该校男生支持方案一的概率为 ,该校女生支持方案一的概率为 ;
(Ⅱ) ,(Ⅲ)
【解析】(Ⅰ)该校男生支持方案一的概率为 ,
该校女生支持方案一的概率为 ;
(Ⅱ)3 人中恰有 2 人支持方案一分两种情况,(1)仅有两个男生支持方案一,(2)仅有一个男生支持方
案一,一个女生支持方案一,
所以 3 人中恰有 2 人支持方案一概率为: ;
(Ⅲ)
【点睛】本题考查利用频率估计概率、独立事件概率乘法公式,考查基本分析求解能力,属基础题.
6、(2020 江苏卷·T25)甲口袋中装有 2 个黑球和 1 个白球,乙口袋中装有 3 个白球.现从甲、乙两口袋
中各任取一个球交换放入另一口袋,重复 n 次这样的操作,记甲口袋中黑球个数为 Xn,恰有 2 个黑球的概
率为 pn,恰有 1 个黑球的概率为 qn.
(1)求 p1·q1 和 p2·q2;
(2)求 2pn+qn 与 2pn-1+qn-1 的递推关系式和 Xn 的数学期望 E(Xn)(用 n 表示) .
【答案】(1) (2)
【解析】(1) ,
,
.
(2) ,
1
3
3
4
13
36 01p p<
200 1
200+400 3
=
300 3
300+100 4
=
2 1
2
1 3 1 1 3 13( ) (1 ) ( )(1 )3 4 3 3 4 36C− + − =
01p p<
1 1 2 2
1 2 7 16, ,3 3 27 27p q p q= = = =; ; ( )1 1
1 22 2 +3 3n n n np q p q− −+ = +
1 1
1 3 1 2 3 2,3 3 3 3 3 3p q
× ×= = = =× ×
2 1 1
1 3 1 2 1 1 2 2 7+ +3 3 3 3 3 3 3 9 27p p q
× ×= × × = × × =× ×
2 1 1
2 3 1 1 2 2 2 2 2 5 16+ 0 +3 3 3 3 3 3 3 9 27q p q
× × + ×= × × + = × × =× ×
1 1 1 1
1 3 1 2 1 2+ +3 3 3 3 3 9n n n n np p q p q− − − −
× ×= × × =× ×,
因此 ,
从而 ,
即
又 的分布列为
0 1 2
故
【点睛】本题考查古典概型概率、概率中递推关系、构造法求数列通项、数学期望公式,考查综合分析求
解能力,属难题.
考点 一 样本的数字特征
【典例】1、已知某地区中小学生人数和近视情况分布如图 1 和图 2 所示.为了解该地区中小学生的近视形
成原因,用分层抽样的方法抽取 2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20 B.100,20
C.200,10 D.100,10
[解析] 由题图可知,样本容量等于(3 500+4 500+2 000)×2%
.
.
1 1 1 1 1
2 3 1 1 2 2 3 2 1 2+ (1 ) +3 3 3 3 3 3 9 3n n n n n nq p q p q q− − − − −
× × + × ×= × × + − − × = −× × ×
1 1
2 1 22 +3 3 3n n n np q p q− −+ = +
1 1 1 1
1 2 12 (2 + ) , 2 1 (2 + 1)3 3 3n n n n n n n np q p q p q p q− − − −+ = + ∴ + − = −
1 1 1
1 12 1 (2 + 1) , 2 13 3n n n nn np q p q p q−+ − = − ∴ + = +
nX
nX
P 1 n np q− − nq np
1( ) 2 1 3n n n nE X p q= + = +
高频考点、热点题型强化=200;抽取的高中生近视人数为 2 000×2%×50%=20,故选 A.
2、某中学奥数培训班共有 14 人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其
中甲组学生成绩的平均数是 88,乙组学生成绩的中位数是 89,则 n-m 的值为( )
A.5 B.6
C.7 D.8
[解析] 甲组学生成绩的平均数是 88,
∴78+86+84+88+95+90+m+92=88×7
∴m=3.
又乙组学生的成绩的中位数是 89.
∴n=9.∴n-m=9-3=6.故选 B.
3、某城市 100 户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),
[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中 x 的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取
11 户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解析] (1)由已知得,20×(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)=1,解得 x=0.0075.
(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估
计值为 230;
因为 20×(0.002+0.0095+0.011)=0.450.5,所以中位数在区间[220,240)内,设中位数为 m,则
20×(0.002+0.0095+0.011)+0.0125×(m-220)=0.5,解得 m=224.
所以月平均用电量的中位数为 224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用
电量为[240,260),[260,280),[280,300]的用户数分别为 15,10,5.
故用分层抽样的方式抽取 11 户居民,月平均用电量在[220,240)的用户中应抽取 11× 25
25+15+10+5=
5(户).
【备考策略】
1.用样本估计总体的两种方法
(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布.
(2)用样本的数字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征.
2.方差的计算与含义
计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和
总体的波动大小的特征数,方差、标准差大说明波动大.
3.众数、中位数、平均数与频率分布直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
【类比演练】1、从编号为 01,02,…,49,50 的 50 个个体中利用下面的随机数表选取 5 个个体,选取方法
从随机数表第 1 行第 5 列的数开始由左到右依次抽取,则选出来的第 5 个个体的编号为( )
7816 6572 0812 1463 0782 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.14 B.07
C.32 D.43[解析] 由题意知选定的第一个数为 65(第 1 行的第 5 列和第 6 列),按由左到右选取两位数(大于 50 的
跳过、重复的不选取),前 5 个个体编号为 08,12,14,07,43.故选出来的第 5 个个体的编号为 43.选 D.
2、某公司 10 位员工的月工资(单位:元)为 x1,x2,…,x10,其均值和方差分别为x和 s2,若从下月起每位
员工的月工资增加 100 元,则这 10 位员工下月工资的均值和方差分别为( )
A.x,s2+1002 B.x+100,s2+1002
C.x,s2 D.x+100,s2
[解析] 由题意知 yi=xi+100,则y= 1
10(x1+x2…+x10+100×10)=x+100.
方差 S2= 1
10[(x1+100-(x+100))2+(x2+100-(x+100))2+…+(x10+100-(x+100))2]
= 1
10[(x1-x)2+(x2-x)2+…+(x10-x)2]=s2.
故选 D.
考点 二 回归分析
【典例】 某公司准备实施对一项产品的科技改造,经过充分的市场调研与模拟,得到 x,y 之间的五组数据如
下表:
x 2 3 5 7 8
y 5 8 12 14 16
其中 x(单位:百万元)是科技改造的总投入,y (单位:百万元)是改造后的额外收益.
已知 G(x,y)=2x+y 是对当地生产总值的增长贡献值.
(1)若从五组数据中任取两组,求至少有一组满足 G(x,y)≥25 的概率;
(2)对于表中数据,甲、乙两个同学给出的拟合直线方程分别为 , ,
试用最小二乘法判断哪条直线的拟合效果更好.
附:对于一组数据 ,若其拟合直线方程 , ,
11,5 == yx
12ˆ:1 += xyl 2
3
2
5ˆ:2 −= xyl
),(),,(),,( 2211 nn yxyxyx axby ˆˆˆ += ∑
=
−−=
n
i
ii axbyQ
1
2)ˆˆ(则 Q 越小拟合效果越好.
【解析】(1)由题知,最后两组数据满足条件,设所给五组数据分别为 A,B,C,D,E,
则从五组数据中任意取出两组的情况有 AB,AC,AD,AE,BC,BD,BE,CD,CE,DE,共 10 种,分
其中有一组数据满足条件的情况有 6 种(为 AD,BD,CD,AE,BE,CE),
两组数据均满足条件的情况有 1 种(为 DE),故共有 7 种情况满足条件.
故所求概率 P= .
(2)根据甲同学给出的拟合直线方程列表如下:
x 2 3 5 7 8
y 5 8 12 14 16
5 7 11 15 17
根据乙同学给出的拟合直线方程列表如下:
x 2 3 5 7 8
y 5 8 12 14 16
3.5 6 11 16 18.5
由表中数据及 Q 的公式得
Q 甲=02+12+12+(-1)2+(-1)2=4,
Q 乙=1.52+22+12+(-2)2+(-2.5)2=17.5,
∵Q 甲0.75 时认为两个变量 t,y 有很强的
线性相关关系,回归方程 中斜率和截距的最小二乘估计公式分别为 ,
.
【解析】(1)由表中数据和参考数据得
-
푡 = 4,
7
∑
i = 1
(푡푖 -
-
푡)2
= 28,
7
∑
푖 = 1
(푦푖 -
-
푦)2
= 0.55,
7
∑
푖 = 1
(푡푖 -
-
푡)(푦푖 -
-
푦) =
7
∑
푖 = 1
푡푖푦푖 -
-
푡
7
∑
푖 = 1
푦푖 = 40.17 ― 4 × 9.32 = 2.89,
所以 ,
因为 0.99>0.75,所以销售量 y 与月份代码 t 有很强的线性相关关系.
55.0)(,17.40,32.9
7
1
2
7
1
7
1
=−== ∑∑∑
=== i
i
i
ii
i
i yyyty
ii tx =
646.27 ≈
∑ ∑
∑
= =
=
−−
−−
= n
i
n
i
ii
n
i
ii
yytt
yytt
r
1 1
22
1
)()(
))((
axby ˆˆˆ +=
∑
∑
=
=
−
−−
= n
i
i
n
i
ii
tt
yytt
b
1
2
1
)(
))((
ˆ
tbya ˆˆ −=
99.055.0646.22
89.2
55.072
89.2 ≈××≈
×
=r(2)由 及(1)得 ,, ,
所以 y 关于 t 的回归方程为 =0.10t+0.93.
(3)当 t=8 时,代入回归方程得 =0.10×8+0.93=1.73(万件),
所以第 8 个月的毛利润 z=10×1.73- ≈17.3-2×1.414=14.472(万元),
因为 14.4725.024,
所以有 97.5%的把握认为视觉和空间能力与性别有关.
(2)设甲、乙解答一道几何题的时间分别为 x,y 分钟,则Error!表示的平面区域如图所示.
设事件 A 为“乙比甲先做完此道题”,则 x>y 满足的区域如图中阴影部分所示.
由几何概型可得 P(A)=
1
2 × 1 × 1
2 × 2 =1
8,
即乙比甲先解答完的概率为1
8.
(3)由题可知,在选择做几何题的 8 名女生中任意抽取 2 人的方法有 C28=28 种,其中丙、丁 2 人没有一
个人被抽到的有 C26=15 种;恰有一人被抽到的有 C12·C16=12 种;2 人都被抽到的有 C22=1 种.
所以 X 的可能取值为 0,1,2,P(X=0)=15
28,P(X=1)=12
28=3
7,P(X=2)= 1
28.
X 的分布列为
X 0 1 2
P 15
28
3
7
1
28
E(X)=0×15
28+1×3
7+2× 1
28=1
2.
【备考策略】
进行独立性检验的步骤
(1)假设两个分类变量 X 与 Y 无关;(2)找相关数据,列出 2×2 列联表;
(3)由公式 K2= nad-bc2
a+bc+da+cb+d(其中 n=a+b+c+d)计算出 K2 的值.
(4)将 K2 的值与临界值进行对比,进而做出统计推断.
提醒:
K2 的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大.
【类比演练】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100 个网
箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设 A 表示事件“旧养殖法的箱产量低于 50 kg”,估计 A 的概率;
(2)填写下面列联表,并根据列联表判断是否有 90%的把握认为箱产量与养殖方法有关;
箱产量