第二节 用样本估计总体
一、教材概念·结论·性质重现
1.频率分布直方图
(1)频率分布表的画法.
第一步:求极差,决定组数和组距,组距=极差
组数;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区
间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图).
横轴表示样本数据,纵轴表示频率
组距
,每个小矩形的面积表示样本落在该组内
的频率.
2.频率分布折线图
频率分布折线图:用线段连接频率分布直方图中各个矩形上面一边的中点,
就得到频率分布折线图.
频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘小矩形底边
中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
3.中位数、众数、平均数、百分位数
(1)中位数.
将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数
据的平均数)叫做这组数据的中位数.
(2)众数.
一组数据中出现次数最多的数据称为这组数据的众数.
(3)平均数.
一组数据的算术平均数即为这组数据的平均数,n 个数据 x1,x2,…,xn 的
平均数 x =1
n(x1+x2+…+xn).
(4)百分位数.
①第 p 百分位数的定义:
一般地,一组数据的第 p 百分位数是这样一个值,它使得这组数据中至少有
p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
②计算一组 n 个数据的第 p 百分位数的步骤:
第 1 步,按从小到大排列原始数据.
第 2 步,计算 i=n×p%.
第 3 步,若 i 不是整数,而大于 i 的比邻整数为 j,则第 p 百分位数为第 j 项
数据;若 i 是整数,则第 p 百分位数为第 i 项与第(i+1)项数据的平均数.
4.样本的数字特征
如果有 n 个数据 x1,x2,…,xn,那么
平均数为 x =1
n(x1+x2+…+xn),
标准差为 s= 1
n[ x1- x 2+ x2- x 2+…+ xn- x 2],
方差为 s2=1
n
[(x1- x )2+(x2- x )2+…+(xn- x )2].
(1)若数据 x1,x2,…,xn 的平均数为 x ,则 mx1+a,mx2+a,mx3+a,…,
mxn+a 的平均数是 m x +a.
(2)若数据 x1,x2,…,xn 的方差为 s2,则数据 ax1+b,ax2+b,…,axn+b
的方差为 a2s2.
二、基本技能·思想·活动体验
1.判断下列说法的正误,对的打“√”,错的打“×”.
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. (√)
(2)一组数据的方差越大,说明这组数据越集中. (×)
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频
率越大. (√)
2.一个容量为 32 的样本,已知某组样本的频率为 0.25,则该组样本的频数
为( )
A.4 B.8 C.12 D.16
B 解析:设频数为 n,则 n
32
=0.25,所以 n=32×1
4
=8.
3.数据 12,14,15,17,19,23,27,30 的第 70 百分位数是( )
A.14 B.17 C.19 D.23
D 解析:因为 8×70%=5.6,所以第 70 百分位数是第六项数据 23.
4 . 若 某 校 高 一 年 级 8 个 班 参 加 合 唱 比 赛 的 得 分 分 别 为
87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是( )
A.91.5 和 91.5 B.91.5 和 92
C.91 和 91.5 D.92 和 92
A 解析:因为这组数据为 87,89,90,91,92,93,94,96,
所以中位数是91+92
2
=91.5,
平均数 x =87+89+90+91+92+93+94+96
8
=91.5.故选 A.
5.已知样本容量为 200,在样本的频率分布直方图中,共有 n 个小矩形.若
中间一个小矩形的面积等于其余(n-1)个小矩形面积和的1
3
,则该组的频数为
________.
50 解析:设除中间一个小矩形外的(n-1)个小矩形面积的和为 p,则中间
一个小矩形面积为 1
3p.由题意,得 p+1
3p=1,所以 p=3
4
,则中间一个小矩形的面
积为 1
3p=1
4
,200×1
4
=50,即该组的频数为 50.
考点 1 频率分布直方图——综合性
某市为了了解人们对“经济内循环”的认知程度,对不同年龄和不同
职业的人举办了一次“经济内循环”知识竞赛,满分为 100 分(90 分及以上为认
知程度高).现从参赛者中抽取了 x 人,按年龄分成 5 组,第一组:[20,25),第
二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如
图所示的频率分布直方图,已知第一组有 6 人.
(1)求 x.
(2)求抽取的 x 人的年龄的中位数(结果保留整数).
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层随机抽
样的方法依次抽取 6 人,42 人,36 人,24 人,12 人,分别记为 1~5 组.从这
5 个按年龄分的组和 5 个按职业分的组中每组各选派 1 人参加知识竞赛,分别代
表相应组的成绩,年龄组中 1~5 组的成绩分别为 93,96,97,94,90,职业组中 1~5
组的成绩分别为 93,98,94,95,90.
(ⅰ)分别求 5 个年龄组和 5 个职业组成绩的平均数和方差;
(ⅱ)以上述数据为依据,评价 5 个年龄组和 5 个职业组对“经济内循环”的
认知程度,并谈谈你的感想.
解:(1)根据频率分布直方图,得第一组的频率为 0.01×5=0.05,所以6
x
=0.05,
所以 x=120.
(2)设中位数为 a,则 0.01×5+0.07×5+(a-30)×0.06=0.5,解得 a=
95
3
≈32,则中位数为 32.
(3)(ⅰ)5 个年龄组成绩的平均数为 x 1=1
5
×(93+96+97+94+90)=94,
方差为 s21=1
5
×[(-1)2+22+32+02+(-4)2]=6.
5 个职业组成绩的平均数为 x 2=1
5
×(93+98+94+95+90)=94,
方差为 s22=1
5
×[(-1)2+42+02+12+(-4)2]=6.8.
(ⅱ)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳
定(感想合理即可).
1.频率分布直方图的性质.
(1)小长方形的面积=组距×频率
组距
=频率;
(2)各小长方形的面积之和等于 1;
(3)小长方形的高=频率
组距
,所有小长方形的高的和为 1
组距.
2.要理解并记准频率分布直方图与众数、中位数、百分位数及平均数的关
系.
1.(多选题)(2020·嘉祥县第一中学高三模拟)在某次高中学科知识竞赛中,
对 4 000 名考生的参赛成绩进行统计,可得到如图所示的频率分布直方图,其中
分组的区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100),60 分以
下视为不及格.若同一组中数据用该组区间中间值作代表值,则下列说法中正确
的是( )
A.成绩在[70,80)的考生人数最多
B.不及格的考生人数为 1 000
C.考生竞赛成绩的平均分约为 70.5 分
D.考生竞赛成绩的中位数为 75 分
ABC 解析:由频率分布直方图可得,成绩在[70,80)的频率最高,因此考生
人数最多,故 A 正确;成绩在[40,60)的频率为 0.01×10+0.015×10=0.25,因此,
不及格的人数为 4 000×0.25=1 000,故 B 正确;考生竞赛成绩的平均分约为
45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故 C 正确;
因为成绩在[40,70)的频率为 0.45,在[70,80)的频率为 0.3,所以中位数为 70+
10×0.05
0.3
≈71.67,故 D 错误.
2.某车间加工零件的数量 x 与加工时间 y 的统计数据如表:
零件数 x(个) 9 11 14 15 16
加工时间 y(分钟) 30 32 36 40 42
该车间的负责人作出散点图,发现 x,y 是线性相关的,并求出 y 关于 x 的
线性回归方程y^=b^x+235
17 (其中 b 是常数).据此回归模型可以预测,加工 20 个零
件所需要的加工时间约为( )
A.45 分钟 B.46 分钟 C.47 分钟 D.48 分钟
D 解析:由题意,根据表中的数据,可得 x-=1
5(9+11+14+15+16)=13,
y-=1
5(30+32+36+40+42)=36,即样本中心点为(13,36).
将样本中心点(13,36)代入回归方程,可得 36=b^×13+235
17
,解得b^=29
17
,所
以回归方程为y^=29
17x+235
17
,当 x=20 时,y^=29
17
×20+235
17
=815
17
≈47.94≈48(分
钟).
考点 2 统计图表——综合性
(1)(多选题)(2020·德州一模)某市教体局对全市高三年级的学生身高进
行抽样调查,随机抽取了 100 名学生,他们的身高都处在 A,B,C,D,E 五个
层次内,根据抽样结果得到统计图表,则下面叙述正确的是( )
A.样本中女生人数多于男生人数
B.样本中 B 层人数最多
C.样本中 E 层男生人数为 6
D.样本中 D 层男生人数多于女生人数
ABC 解析:样本中女生人数为 9+24+15+9+3=60,男生人数为 100-
60=40,A 正确.样本中 A 层人数为 9+40×10%=13;样本中 B 层人数为 24
+40×30%=36;样本中 C 层人数为 15+40×25%=25;样本中 D 层人数为 9
+40×20%=17;样本中 E 层人数为 3+40×15%=9,B 正确.样本中 E 层次男
生人数为 40×15%=6,C 正确.样本中 D 层次男生人数为 40×20%=8,女生
人数为 9,女生人数多于男生人数,D 错误.
(2)(多选题)(2020·临沂一模)某同学在微信上查询到近十年全国高考报名人
数、录取人数和山东夏季高考报名人数的折线图,其中 2019 年的录取人数被遮
挡了.他又查询到近十年全国高考录取率的散点图,结合图表中的信息判定下列
说法正确的是( )
A.全国高考报名人数逐年增加
B.2018 年全国高考录取率最高
C.2019 年高考录取人数约为 820 万
D.2019 年山东高考报名人数在全国的占比最小
BCD 解析:2016 年的人数少于 2015 年人数,A 错误;2018 年的录取率为
81.1%,为最高,B 正确;2019 年高考录取人数为 1 031×79.5%≈820,C 正确;
从 2010~2019 年山东高考报名人数在全国的占比分别为 6.9%,6.3%,5.6%,
5.5%,5.9%,7.4%,6.4%,6.2%,6.1%,5.4%,D 正确.
统计图表问题的解决方法
(1)首先要准确地识图,即要明确统计图表中纵轴、横轴及折线、区域等所
表示的意义,尤其注意数字变化的趋势等;
(2)其次要准确地用图,会根据统计图表中的数字计算样本的数字特征,会
用统计图表估计总体.
1.(2020·鹤壁二模)中国铁路总公司相关负责人表示,到 2018 年底,全国铁
路营业里程达到 13.1 万公里,其中高铁营业里程 2.9 万公里,超过世界高铁总里
程的2
3.下图是 2014 年到 2018 年铁路和高铁运营里程(单位:万公里)的折线图,
以下结论不正确的是( )
A.每相邻两年相比较,2014 年到 2015 年铁路运营里程增加最显著
B.从 2014 年到 2018 年这 5 年,高铁运营里程与年份正相关
C.2018 年高铁运营里程比 2014 年高铁运营里程增长 80%以上
D.从 2014 年到 2018 年这 5 年,高铁运营里程数依次成等差数列
D 解析:选项 A,B 显然正确;对于 C,2.9-1.6
1.6
>0.8,选项 C 正确;1.6,
1.9,2.2,2.5,2.9 不是等差数列,故 D 错误.故选 D.
2.甲、乙、丙三家企业产品的成本分别为 10 000,12 000,15 000,其成本
构成如图所示,则关于这三家企业下列说法错误的是( )
A.成本最大的企业是丙企业
B.费用支出最高的企业是丙企业
C.支付工资最少的企业是乙企业
D.材料成本最高的企业是丙企业
C 解析:甲企业的成本为 10 000;乙企业的成本为 12 000;丙企业的成本
为 15 000.故成本最大的是丙企业,故 A 正确.甲企业费用支出为 10 000×5%=
500;乙企业费用支出为 12 000×17%=2 040;丙企业费用支出为 15 000×15%
=2 250.故费用支出最高的企业是丙企业,故 B 正确.甲企业支付工资为 10
000×35%=3 500;乙企业支付工资为 12 000×30%=3 600;丙企业支付工资为
15 000×25%=3 750.故甲企业支付的工资最少,故 C 错误.甲企业材料成本为
10 000×60%=6 000;乙企业材料成本为 12 000×53%=6 360;丙企业材料成本
为 15 000×60%=9 000.故材料成本最高的企业是丙企业,故 D 正确.故选 C.
考点 3 样本的数字特征——综合性
(1)(2020·德州一模)某赛季甲、乙两名篮球运动员每场比赛得分用茎叶
图表示,茎叶图中甲得分的部分数据丢失(如图),但甲得分的折线图完好,则下
列结论正确的是( )
A.甲得分的极差是 11
B.乙得分的中位数是 18.5
C.甲运动员得分有一半在区间[20,30]上
D.甲运动员得分的平均值比乙运动员得分的平均值高
D 解析:甲得分的极差是 28-9=19,A 错误;乙得分的中位数是16+17
2
=
16.5,B 错误;甲运动员得分在区间[20,30]上有 3 个,C 错误;甲运动员得分的
平均值为9+12+13+13+15+20+26+28
8
=17,乙运动员得分的平均值为
9+14+15+16+17+18+19+20
8
=16,故 D 正确.
(2)抽样统计甲、乙两位射击运动员的 5 次训练成绩(单位:环),结果如下:
运动员 第 1 次 第 2 次 第 3 次 第 4 次 第 5 次
甲 87 91 90 89 93
乙 89 90 91 88 92
则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.
2 解析: x 甲=1
5(87+91+90+89+93)=90, x 乙=1
5
×(89+90+91+88+
92)=90,
s 2
甲=1
5
×[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,
s 2
乙=1
5
×[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.
因为 4>2,
所以乙的成绩较为稳定,其方差为 2.
1.平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围
绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;标准
差、方差越小,数据的离散程度越小,越稳定.
2.用样本估计总体,就是利用样本的数字特征来描述总体的数字特征.
1.已知某 7 个数的平均数为 4,方差为 2.现加入一个新数据 4,此时这 8 个
数的平均数为 x ,方差为 s2,则( )
A. x =4,s22
C. x >4,s24,s2>2
A 解析:因为某 7 个数的平均数为 4,所以这 7 个数的和为 4×7=28.因为
加入一个新数据 4,所以 x =28+4
8
=4.又因为这 7 个数的方差为 2,且加入一个
新数据 4,所以这 8 个数的方差 s2=7×2+4-42
8
=7
4