天添资源网 http://www.ttzyw.com/
第三节 用样本估计总体
[考纲传真] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3.茎叶图的优点
茎叶图的优点是不但可以记录所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.
注意:茎叶图中茎是指中间的一列数,叶是从茎的旁边生长出来的数.
4.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=
s2=
1.频率分布直方图的3个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
(3)小长方形的高=,所有小长方形高的和为.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
[基础自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. ( )
(2)一组数据的方差越大,说明这组数据越集中. ( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高. ( )
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次. ( )
[答案] (1)√ (2)× (3)√ (4)×
2.(教材改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4 B.8 C.12 D.16
B [设频数为n,则=0.25,∴n=32×=8.]
3.(教材改编)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
A [∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是=91.5,平均数==91.5.]
4.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.
48 [由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).]
5.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.
0.1 [5个数的平均数==5.1,所以它们的方差s2=[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.]
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
茎叶图的应用
1.(2019·成都检测)某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为 ( )
A.117 B.118 C.118.5 D.119.5
B [22次考试中,所得分数最高的为98,最低的为56,所以极差为98-56=42,
将分数从小到大排列,中间两数为76,76,所以中位数为76,
所以此学生该门功课考试分数的极差与中位数之和为42+76=118.]
2.(2019·泉州质检)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m的值是 ( )
A.5 B.6 C.7 D.8
B [由甲组学生成绩的平均数是88,可得=88,解得m=3.由乙组学生成绩的中位数是89,可得n=9,所以n-m=6,故选B.]
[规律方法] 茎叶图中的三个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
样本的数字特征及应用
1.(2019·济南一中质检)2018年2月20日,摩拜单车在济南推出“做文明骑士,周一摩拜单车免费骑”活动.为了解单车使用情况,记者随机抽取了五个投放区域,统计了半小时内被骑走的单车数量,绘制了如图所示的茎叶图,则该组数据的方差为 ( )
A.9 B.4 C.3 D.2
B [由茎叶图得该组数据的平均数=(87+89+90+91+93)=90.
∴方差为[(87-90)2+(89-90)2+(90-90)2+(91-90)2+(93-90)2]=4.]
2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则 ( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
C [甲的平均数是=6,中位数是6,极差是4,方差是=2;乙的平均数是=6,中位数是5,极差是4,方差是=,故选C.]
3.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.
甲 [甲=乙=9,s=×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=,
s=×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=>s,故甲更稳定.]
[规律方法] (1)众数、中位数、平均数及方差的意义
①平均数与方差都是重要的数字特征,是对总体的一种简明地描述;②平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)在计算平均数、方差时可利用平均数、方差的有关结论.
频率分布直方图及应用
►考法1 求样本的频率、频数
【例1】 (2019·石家庄检测)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
D [由直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.]
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
►考法2 频率分布直方图与样本的数字特征的综合
【例2】 我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨).将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
[解] (1)由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,
解得a=0.30.
(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)设中位数为x吨.
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,
又前4组的频率之和为0.04+0.08+0.15+0.21=0.48