人教必修二第九章9.2.1总体取值规律的估计总体百分位的估计
问题导入问题一:我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作?标准如果定的太低,会影响很多居民的日常生活;标准如果太高,则不利于节水。为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民用户所占的比例情况。在时间、经费允许的情况下,我们可以通过全面调查获得过去一年全市所有居民用户的月均用水量数据,进而得到月均用水量在不同范围内的居民用户所占的比例。由于全市居民很多,通常采用抽样调查的方式,通过分析样本观测数据,来估计全市居民用户月均用水量的分布情况。
问题导入问题二:在这个问题中,总体、个体、调查变量分别是什么?总体是该市的全体居民用户,个体是每户居民,调查变量是居民用户的月均用水量。假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t)9.013.614.95.94.07.16.45.419.42.02.28.613.85.410.24.96.814.02.010.52.15.75.116.86.011.11.311.27.74.92.310.016.712.012.47.85.213.62.422.43.67.18.825.63.218.35.12.03.012.022.210.85.52.024.39.93.65.64.47.95.124.56.47.54.720.55.515.72.65.75.56.016.02.49.53.717.03.84.12.35.37.88.14.313.36.81.37.04.91.87.128.010.213.817.910.15.54.63.221.6
问题导入问题三:从这组数据我们能发现什么信息呢?如果将这组数据按从小到大排序,发现这组数据的最小值是1.3t,最大值是28.0t,其他在1.3t和28.0t之间。为了更深入地挖掘数据蕴含的信息,需要对数据作进一步的整理与分析。为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来。在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数。在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民占全市居民用户的比例,所以选择频率分布表和频率分布直方图在整理和表示数据。
思考四:什么是频数?什么是频率?频数在总体(或样本)中,某个个体出现的次数叫做这个个体的频数。频率某个个体的频数与总体(或样本)中所含个体的数量的比叫做这个个体的频率。问题导入
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图。1.求极差极差为一组数据中最大值与最小值的差。样本观测数据的最小值是1.3t,最大值是28.0t,则极差为28.0-1.3=26.7,这样说明样本观测数据的变化范围是26.7t.2.决定组距与组数组数太多或太少都会影响我们了解数据的分布情况。组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程。数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多。当样本容量不超过100时,常分成5~12组。数据分组可以是等距,也可以是不等距的。但为了方便起见,一般取等长组距,并且组距应力求“取整”。知识探究(一):频率分布表和频率分布直方图
分组时可以先确定组距,也可以先确定组数。如果取组距为3,则极差/组距=26.7/3=8.9即可以将数据分为9组,这也说明这个组距是比较合适的。3.将数据分组由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右断点略大于数据中的最大值。例如,可以取区间为[1.2,28.2],按如下方式把样本观测数据以组距为3分为9组:[1.2,4.2),[4.2,7.2),~,[25.2,28.2]知识探究(一):频率分布表和频率分布直方图
4.列频率分布表计算各小组的频率,例如第一小组的频率是:第一组频数/样本容量=23/100=0.23.由此方法作出频率分布表。知识探究(一):频率分布表和频率分布直方图
5.画频率分布直方图根据频率分布表可以得到如下的频率分布直方图。在频率分布直方图中,横轴表示月均用水量,纵轴表示频率/组距。在这里,我们发现,纵轴实际上就是频率分布直方图中各小长方形的高,它反映了各组样本观测数据的疏密程度。因为小长方形面积=组距×(频率/组距)=频率,所以各小长方形的面积表示相应各组的频率。知识探究(一):频率分布表和频率分布直方图
由以上分析可知,频率分布直方图以面积的形式反映了数据落在各个小组的频率的大小。易知,在频率分布直方图中,各小长方形的面积的综合等于1,即样本数据落在整个区间的频率为1.思考一:频率分布直方图与频数分布直方图有什么区别?频率分布直方图的纵轴是频率/组距,而频数分布直方图的纵轴是频数。知识探究(一):频率分布表和频率分布直方图
思考二:观察上述频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能发现居民用户月均用水量的那些分布规律?你能给出适当的语言描述吗?从频率分布表中可以看出,样本观测数据落在各个小组的比例大小。例如,月均用水量在区间[4.2,7.2)内的居民用户最多,在区间[1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等。从频率分布直方图可以看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在[1.2,7.2)最为集中,少数用户居民的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势。知识探究(二):根据样本数据估计总体情况
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律。根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域。这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的。需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解。知识探究(二):根据样本数据估计总体情况
思考三:分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直方图。观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?知识探究(二):根据样本数据估计总体情况
从上图可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同。图(1)中直方图的组数少、组距大,从图中容易看出,数据分布的整体规律是随着月均用水量的增加,居民用户数的频率在降低,而且月均用水量在区间[1.2,10.2)内的居民用户数的频率,远大于在另两个区间[10.2,19.2)和[19.2,28.2)内的频率,这说明大部分居民用户的月均用水量都少于10.2t。图(2)中直方图的组数多、组距小,从图中可以看出,数据主要集中在低值区,尤其在区间[5.2,6.2)内最为集中,从总体上看,随着月均用水量的增加,居民用户数的频率呈下降趋势,但存在个别区间频率变大或者缺少的现象。知识探究(二):根据样本数据估计总体情况
思考四:画频率分布直方图有哪几个步骤?1、求极差,即数据中最大值与最小值的差;2、决定组距和组数,组数=极差/组距;注意:①一般样本容量越大,所分组数越多;②为方便起见,组距的选择应力求“取整”;③当样本容量不超过100时,按照数据的多少,通常分成5~12组.3、将数据分组,通常对组内数值所在区间,取左闭右开区间,最后一组取闭区间;4、登记频数,计算频率和频率/组距,列频率分布表;一般分四列:分组、频数累计、频数、频率,最后一行是合计.其中频率合计应是样本容量,频率合计是1.5、画频率分布直方图。画图时,应以横轴表示分组,纵轴表示频率/组距.其相应组距上的频率等于该组上的小长方形的面积.知识探究(二):根据样本数据估计总体情况
思考五:频率分布直方图还有哪些特点?频率分布直方图中:小长方形的高=频率/组距小长方形的面积表示该组的频率。所有小长方形的面积和=1,即频率之和为1.知识探究(二):根据样本数据估计总体情况
思考六:根据上图你能发现组数少与组数大各有什么优缺点?从上述分析可见,当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点。同时,对于同一组数据,因为组距、组数不同而得到不同形状的直方图,会给人以不同的频率分布印象,这种印象有时会影响人们对总体的判断。因此,我们要注意积累数据分组、合理使用图表的经验。知识探究(二):根据样本数据估计总体情况
例题讲解例1、已知某市2015年全年空气质量等级如下表所示:选择合适的统计图描述数据,并回答下列问题:(1)分析该市2016年6月的空气质量情况;(2)比较该市2016年5月和6月的空气质量,哪个月的空气质量较好?(3)比较该市2016年6月与该市2015年全年的空气质量,2016年6月的空气质量是否好于去年?
例题讲解解:(1)根据该市2016年6月的空气质量指数和空气质量等级分级标准,可以画出该市这个月的不同空气质量等级的频数和频率分布表:从表中可以看出,“优“”良“的天数达19天,占了整月的63.33%,没有出现”重度污染“和”严重污染“。
例题讲解我们可以用条形统计图和扇形统计图对数据作出直观的描述,如下图所示。从条形图可以看出,在前三个等级的占绝大多数,空气质量等级为”良“的天数最多,后三个等级的天数很少。从扇形图中可以看出,空气质量为“良”的天数占了总天数的一半,大约有三分之二为“优”“良”,大多数“良”和“轻度污染”。因此,整体上6月的空气质量不错。
例题讲解我们还可以用折线图展示空气质量指数随时间的变化情况。如下图所示,容易发现,6月的空气质量指数在100附近波动。
例题讲解(2)根据该市2016年5月的空气质量指数和空气质量分级标准,可以画出该市这个月的不同空气质量等级的频数和频率分布表为了便于比较,我们选用复合条形图,将两组数据同时反映到一个条形图上。通过条形图中柱的高低,可以更直观地进行两个月的空气质量的比较。由上图和上表发现,5月空气质量为“优”和“良”的总天数比6月多。所以,从整体上看,5月的空气质量略好于6月,但5月有重度污染,而6月没有。
例题讲解(3)把2016年6月和2015年全年的空气质量进行比较,由于一个月和一年的天数差别很大,所以直接通过频数比较没有意义,应该转化成频率分布进行比较。可以通过二者的空气质量指数的频率分布直方图或空气质量等级的频率分布条形图进行比较。通过上图可以看出,虽然2016年6月的空气质量为“优”的频率略低于2015年,但“良”的频率明显高于2015年,而且2016年6月中度以上的污染天气频率明显小于2015年。所以从整体上看,2016年6月的空气质量要好于2015年全年的空气质量。
小试牛刀1、下列关于频率分布直方图的说法正确的是()A.频率分布直方图的高表示取某数的频率B.频率分布直方图的高表示该组上的个体在样本中出现的频率C.频率分布直方图的高表示取某组上的个体在样本中出现的频数与组距的比值D.频率分布直方图的高表示取该组上的个体在样本中出现的频率与组距的比值D
小试牛刀2、某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是( )人解:∵成绩低于60分有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.01,每组数据的组距为20,则成绩低于60分的频率P=(0.005+0.010)×20=0.3,又∵低于60分的人数是15人,则该班的学生人数是15/0.3=50人。
小试牛刀3、从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示:(1)直方图中x的值为______;(2)在这些用户中,用电量落在区间[100,250)内的户数为______.解:(1)依题意及频率分布直方图知,0.0024×50+0.0036×50+0.0060×50+x×50+0.0024×50+0.0012×50=1,解得x=0.0044.(2)样本数据落在[100,150)内的频率0.0036×50=0.18,样本数据落在[150,200)内的频率为0.006×50=0.3.样本数据落在[200,250)内的频率为0.0044×50=0.22,故在这些用户中,用电量落在区间[100,250)内的户数为(0.18+0.30+0.22)×100=70.
小试牛刀4、如图,从参加环保知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如下:观察图形,回答下列问题:(1)求:79.5-89.5这一组数据的频数、频率;(2)求:本次竞赛的及格率(60分及以上为及格)。解:(1)频率为:0.025×10=0.25,频数:60×0.25=15;(2)0.015×10+0.03×10+0.025×10+0.005×10=0.75。
小试牛刀5、调查某校高三年级男生的身高,随机抽取40名高三男生,实测身高数据(单位:cm)如下:171163163166166168168160168165171169167169151168170168160174165168174159167156157164169180176157162161158164163163167161(1)作出频率分布表;(2)画出频率分布直方图.
小试牛刀解:(1)第一步:求极差:最低身高151cm,最高身高180cm,它们的差是180-151=29,即极差为29;第二步:决定组距与组数:当样本容量不超过100时,按照数据的多少,常分成5-12组.为方便组距的选择应力求“取整”.本题如果组距为4,则所以将数据分成8组较合适.第三步:将数据分组:[149.5,153.5),[153.5,157.5),[157.5,161.5),[161.5,165.5),[165.5,169.5),[169.5,173.5),[173.5,177.5),[177.5,181.5),共8组
小试牛刀第四步:列频率分布表.组距=4分组频数频率频率/组距[149.5,153.5)10.0250.00625[153.5,157.5)30.0750.01875[157.5,161.5)60.150.0375[161.5,165.5)90.2250.05625[165.5,169.5)140.350.0875[169.5,173.5)30.0750.01875[173.5,177.5)30.0750.01875[177.5,181.5]10.0250.00625合计4010.25
小试牛刀(2)第五步:画出频率分布直方图.
知识探究(三):总体百分位数的估计问题一:我们根据频率分布直方图得出了“大部分居民用户的月均用水量集中在一个较低值区域”等推断。那么,如何利用这些信息,为政府决策服务呢?如果该市政府希望使80%的居民用户生活用水费支出不受影响,你能给市政府提出确定居民用户月均用水量标准的建议吗?根据市政府的要求确定居民用户月均用水量标准,要寻找一个数a,使全市居民用户月均用水量中不超过a的占80%,大于a的占20%。下面我们通过样本数据对a的值进行估计。把100个样本数据按从小到大排序,得到第80个和第81个数据分别为13.6和13.8.可以发现,区间(13.6,13.8)内的任意一个数,都能把样本数据分成符合要求的两部分。一般地,我们取这两个数的平均数(13.6+13.8)/2=13.7,并称此数为这组数据的第80百分位数或80%分位数。
知识探究(三):总体百分位数的估计根据样本数据的第80百分位数,我们可以估计总体数据的第80百分位数为13.7左右。由于样本的取值规律与总体的取值规律之间会存在偏差,而在决策问题中,只要临界值近似为第80百分位数即可,因此为了实际中操作的方便,可以建议市政府把月均用水量标准定为14t,或者把年用水量标准定为168t.
知识探究(三):总体百分位数的估计一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值。可以通过下面的步骤计算一组n个数据的第p百分位数:第一步:按从小到大排列原始数据;第二步:计算i=n×p%;第三步:若i不是整数,而大于i的比邻整数位j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第i+1项的平均数。我们在初中学过的中位数,相当于是第50百分位数。在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数。这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数。其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等。另外,像第1百分位数,第5百分位数,第95百分位数,和第99百分位数在统计中也经常被使用。
知识探究(三):总体百分位数的估计例2、根据下列样本数据,估计树人中学高一年级女生第25,50,75百分位数。
知识探究(三):总体百分位数的估计解:把27名女生的样本数据按从小到大排序,可得:由25%×27=6.75,50%×27=13.5,75%×27=20.25,可知样本数据的第25,50,75百分位数为第7,14,21项数据,分别为155.5,161,164.据此可以估计树人中学高一年级女生的第25,50,75百分位数分别约为155.5,161和164.
知识探究(三):总体百分位数的估计例3、根据下列图表,估计月均用水量的样本数据的80%和95%分位数。
知识探究(三):总体百分位数的估计解:由上表可知,月均用水量在13.2t以下的居民用户所占比例为23%+32%+13%+9%=77%在16.2t以下的居民用户所占比例为77%+9%=86%因此,80%分位数一定位于[13.2,16.2)内。由13.2+3×(0.80-0.77)/(0.86-0.77)=14.2可以估计月均用水量的样本数据的80%分位数约为14.2.类似地,由22.2+3×(0.95-0.94)/(0.98-0.94)=22.95可以估计月均用水量的样本数据的95%分位数约为22.95.
小试牛刀某赛季甲、乙两名篮球运动员10场比赛得分的原始记录为:甲运动员的得分:1351238263816331428乙运动员的得分:49241231503144361537估计甲运动员第25百分位数乙运动员第50百分位数。解:先将甲、乙两名运动员的得分按从小到大进行排序:甲:8131416232628333851乙:12152431313637444950由25%×10=2.5,50%×10=5,可知甲的第25百分位数为第3项数据,为14;乙的第50百分位数为第5项数据,为31。
课堂小结课本P214习题9.2第1题作业布置2、总体百分位数的估计。1、频率分布表和频数分布直方图;
1.频率分布表和频率分布直方图2.总体百分位数的估计四、作业布置三、课堂小结二、探索新知一、问题导入9.2.1总体取值规律的估计总体百分位的估计板书设计例1、2