9.1.3获取数据的途径1.了解常用的获取数据的基本方法。2.进一步体会统计学的基本思想方法。重点:常用的获取数据的基本方法;难点:获取数据的基本方法的准确选择;一、知识回顾1、简单随机抽样的概念:设一个总体含有有限个个体,并记其个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的机会相等,就称这样的抽样为简单随机抽样.2、简单随机抽样的特点:①总体个数有限;②逐个进行抽取;③机会均等抽样.3、简单随机抽样的常用方法:①抽签法;②随机数表法.抽样调查最核心的问题是样本的代表性,简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本,设一个总体含有有限个个体,并记其个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的机会相等,就称这样的抽样为简单随机抽样.4、分层抽样的定义。一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样(stratifiedrandomsampling),每一个子总体称为层.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.每一层抽取的样本数=×总样本量分层抽样的步骤:第一步,计算样本容量与总体的个体数之比.
第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.第三步,用简单随机抽样在各层中抽取相应数量的个体.第四步,将各层抽取的个体合在一起,就得到所取样本.分层随机抽样如何估计总体平均数在比例分配的分层随机中抽样中1.分层抽样的样本平均的围绕总体平均数波动,与简单随机抽样的结果相比分层抽样并没有明显优于简单随机抽样。2.相对而言,分层抽样的样本平均数波动幅度更均匀,简单随机抽样的样本平均数有的偏离总体平均数的幅度比较大的极端数据。3.分层随机抽样的结果并不是每一次都优于简单随机抽样。方法类别共同特点抽样特征相互联系适应范围简单随机抽样;分层抽样;将总体分成几层,按比例分层抽取总体中的个体差异较小;总体由差异明显的几部分组成从总体中逐个抽取;用简单随机抽样对各层抽样;抽样过程中每个个体被抽到的可能性相等一、情境与问题统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,是统计学研究的重要内容.在实践中,获取数据的途径多种多样,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.下面介绍获取数据的些基本途径.1.通过调查获取数据
对于有限总体问题,如人口总数、城乡就业状况、农村贫困人口脱贫状况、生态环境改善状况、青少年受教育状况、高中生近视的比例、产品合格率、高中生日平均上网时间等问题,我们一般通过抽样调查或普查的方法获取数据.针对不同问题的特点,为了有效收集所需数据,专家发明了各种不同的抽样方法.除了我们已经学过的简单随机抽样和分层随机抽样,还有系统抽样、整群抽样、不等慨率抽样、自适应抽样、两阶段抽样等很多其他的方法,在实际应用中,关键在于是否能充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.在前面的学习中,我们对此有了一定的认识.2.通过试验获取数据试验是获取样本观测数据的另一种重要途径.例如,要判断研制的新药是否有效、培育的小麦新品种是否具有更高的产量等情况,没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.又如特种钢、轮胎的配方和产品质量等,也需要通过试验获取样本观测数据.通过试验获取数据时,我们需要严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.在统计学中,这种安排试验的学问叫做“试验设计”,感兴趣的同学可以查阅试验设计教科书.在现实生活中,我们感兴趣的很多自然现象都不能被人类所控制,如地震、降水、大气污染、宇宙射线等,自然现象会随着时间的变化而变化,不能用我们已经学过的有限总休来刻画,也就不能用抽样的方法获取观测数据;另一方面,由于自然现象不能被人为控制,也不能通过试验获取观测数据.研究这类现象,只能通过长久的持续观察获取数据.3.通过观察获取数据对于各个不同的行业,往往需要专业测量设备获取观测数据.随着科技水平的提高,专业测量设备的自动化程度越来越高,通过观测获取和存储数据的成本越来越低,这成为大数据产生的根源.一般地,通过观察自然现象所获取的数据性质比较复杂,其中蕴含着所观察现象的本质信息,这些信息十分宝贵,统计学理论和方法是挖掘这些信息的强有力的工具之一.
我们感兴趣的问题,可能有众多专家研究过,他们在研究中所收集的样本观测数据可能存储于学术论文、专著、新闻稿、公报或互联网上,这些数据是宝贵的财富,我们可以收集前人的劳动成果并加以利用,从而减少收集数据的成本.我们往往把这样获得的数据叫做二手数据.国家统计局是我国最主要的统计数据收集和发布的部门,调查统计的数据涉及经济、社会、民生的方方面面.国家统计局的统计数据通过多种形式进行公布,例如定期发布新闻稿、举办新闻发布会、发布统计公报、出版各类统计资料等.统计公报有年度统计公报、经济普查公报、人口普查公报、农业普查公报等;统计资料出版物有《中国统计摘要》、以《中国统计年鉴》为代表的统计年鉴系列等.4.通过查询获得数据2014年全国交通事故情况类型发生数/起死亡人数/人受伤人数/人直接财产损失/万元机动车18032154944194887103386.0非机动车141752311157372719.4行人乘车人2242124711671403.5其他74219134.1总计19681258523211882107543例如,我们想了解2014年全国的交通事故情况,通过查找《中国统计年鉴》可以得到如下表所示的数据.如果我们关心机动车交通事故逐年变化的情况,那么需要通过查找每年的数据表,并把它们合并整理.随着信息技术的发展,通过互联网获取数据越来越成为获取二手数据的主要方式.例如,可以从国家统计局的官方网站查询得到国家统计局公布的各种统计数据.在网络上,也有专门提供数据服务的公司,它们提供政府部门允许公开的各类数据.当然,互联网的最大优势是,人们可以利用强大的搜索功能,在整个网络上查找所需要的数据.但从网络上查找的数据,因为数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真,为进一步的数据分析奠定基础.
通过试验获取数据没有现存的数据可以查询严格控制实验环境,通过精心的设计安排试验,以提高数据质量通过观察获取数据自然现象要通过长久的持续观察获取数据通过查询获得数据众多专家研究过,其收集的数据有所存储必须根据问题背景知识“清洗数据”,去伪存真1.判断正误(1)要了解一批节能灯的使用寿命,可以采用普查的方式.()(2)农科院获取小麦新品种的产量可以通过查询获取数据.()(3)普查获取的资料更加全面、系统,抽样调查更方便、快捷.()2.下列哪些数据一般是通过试验获取的()A.1988年济南市的降雨量B.2019年新生儿人口数量C.某学校高一年级同学的数学测试成绩D.某种特效中成药的配方3.“中国天眼”为500米口径球面射电望远镜(FivehundredmetersApertureSphericalTelescope,简称FAST),是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是()A.通过调查获取数据
B.通过试验获取数据C.通过观察获取数据D.通过查询获得数据4.小明从网上查询得到某贫困地区10户居民家庭年收入(单位:万元)如下所示:根据以上数据,我们认为有一个数据是不准确的,需要剔除,这个数据是.编号12345678910年收入1.21.31.82.04.61.70.92.11.01.65.为了了解我国电视机的销售情况,小张在某网站上下载了下图:(1)小张获取数据的途径是什么?(2)由图可知,电视机的销售总量在2012年达到最大值,你认为电视机销售总量出现下滑的主要原因是什么?6.为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗?在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
参考答案:知识梳理学习过程达标检测1.【答案】×;×;√2.【答案】D【解析】易知特效中成药的配方是通过实验获取数据,故选D3.【答案】C【解析】易知“中国天眼”是通过观察获取数据,故选C4.【答案】4.6【解析】通观察分析获取的数据,编号为5,对应收入为4.6万为异常数据,应剔除。5.【解析】(1)小张获取数据的途径是通过查询获得数据.(2)结合我国的经济发展水平可知,从2012年开始,电视机销售总量出现下滑的主要原因是市场的饱和.6.【解析】(1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.