统计学 第二章 数据的收集与整理
第 1页
目 录
第二章 数据的收集与整理__________________________________________________________________ 2
第一节 数据的收集______________________________________________________________________ 3
一、数据的来源________________________________________________________________________ 3
二、统计调查方案设计__________________________________________________________________ 3
三、统计调查方法______________________________________________________________________ 5
四、统计调查的组织方式________________________________________________________________ 5
第二节 数据的整理______________________________________________________________________ 8
一、数据的审定________________________________________________________________________ 8
二、数据的分组________________________________________________________________________ 8
第三节 次数分布________________________________________________________________________ 9
一、次数分布数列及其种类______________________________________________________________ 9
二、变量数列的编制____________________________________________________________________ 9
英文摘要与关键词_______________________________________________________________________ 13
习 题__________________________________________________________________________________ 14
统计学 第二章 数据的收集与整理
第 2页
第二章 数据的收集与整理
通过本章的学习,我们应该知道:
1. 数据的来源
2. 数据是如何收集的
3. 数据是如何整理的
4. 如何做次数分布表
统计学 第二章 数据的收集与整理
第 3页
数据的收集与整理是依据统计分析的目的和要求,有组织有计划地搜集数据资料并对其进行去伪存
真、去粗取精的分类整理、浓缩简化的工作过程。它是进行统计分析的必要前提,是保证统计数据客观、
真实、准确、可靠的关键。由于我们所研究的现象复杂多变,特别是在市场经济条件下,利益主体的多元
化以及同行之间保守商业秘密,要取得令人满意的数据成为一个相当艰巨的过程。这就使得数据的收集与
整理,成为人们所关注和研究的重要问题。
第一节 数据的收集
数据收集,就是根据统计研究的目的要求,采用一定组织形式与科学方法,进行采集与研究问题有关
的各类数据信息的工作过程。数据收集是一种广义的统计调查,其收集的总体范围可大可小,收集的内容
可简单亦可复杂,可以是原始资料也可以是次级资料,收集的方式灵活多样。
一、数据的来源
按照获取途径不同,数据可分为原始数据和次级数据资料。原始数据也称为第一手资料,是反映被调
查对象原始状况的资料。如原始记录、统计台帐、调查问卷答案、实验结果等。次级数据也称为第二手资
料,是已经存在的经他人整理分析过的资料。如期刊、报纸、广播、电视以及因特网上的资料,各级政府
机构公布的资料,企业内部记录和报告等。一般在可能的情况下尽量使用第一手资料,它比第二手资料更
加丰富、更加准确。使用第二手资料是因为其收集成本和所花费时间比较节省。
数据集 01 的数据来自《中国统计年鉴》,数据集 02 是世界银行根据各国国家所报送的资料整理的,
所以它们是次级数据;数据集 03 是直接对公司职工情况的记录;数据集 04 是直接从流水线上采集的,所
以它们都是原始数据。
一般而言,统计调查是获取数据的主要形式,收集到的主要是第一手资料;查阅文献、年鉴,上因特
网等是获取统计资料的辅助形式,收集到的主要是第二手资料。
在信息化时代,数据成为海洋。如何在数据海洋中汲取丰富的营养而不被大海的波涛吞没?首先应该
对自己的事业投入更多的精力,对它有更清晰的理解;其次是掌握信息渠道,即知道自己所需要的数据如
何获得;再者就是对获得的数据进行深度加工,成为指导我们决策的依据。
如数据集 02 是1995 年的资料,十年过去了,现在的情况怎么样了?你知道如何去收集现在的资料吗?
网络链接: 世界银行的数据库 http://devdata.worldbank.org/data-query/
除了著名的国际组织、各国的官方统计机构免费提供宏观数据外,许多行业组织和咨询机构也以免费
或收费的方式提供行业数据、企业数据库以支持企业决策。
网络链接: 数据中华—情报分析 http://www.allchinadata.com/DataCenter/data_index.asp
二、统计调查方案设计
数据收集的主要形式是统计调查,它是一项复杂的工作。要搞好统计调查必须按照统计任务的要求,
运用科学的方法,有组织、有计划地进行。为使统计调查得以顺利进行,在组织调查之前,必须首先设计
一个周密、可行的调查方案。统计调查方案的设计包括以下内容:
1. 明确调查目的
明确调查目的,就是要明确统计调查要解决什么问题,为什么要进行统计调查。只有明确了调查目的,
才能有的放矢,才能根据调查目的收集与之相关的资料。这样,既可以降低调查成本,又可以保证调查资
料的时效性。例如,我国进行了五次人口普查,其目的均不一样。1953 年人口普查,是为了准备全国人民
代表大会及地方人民代表大会的选举做好选民登记工作,并为国家的经济、文化建设提供确实的人口数字。
1964 年人口普查,是为了给编制国民经济建设第三个五年计划和长远规划提供依据。1982 年人口普查是
为了进行社会主义现代化建设,统筹安排人民的物质和文化生活,制订人口政策和规划,提供人口资料。
统计学 第二章 数据的收集与整理
第 4页
1990 年人口普查是为了查清中国人口在数量、地区分布、结构和素质方面的变化,为科学地制定国民经济
和社会发展战略与规划,安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。2000 年
人口普查,是为了准确查清人口在数量、地域分布、结构素质和居民环境等方面的变化情况,获得社会经
济、人口等方面大量而丰富的信息。调查目的一定要表述清楚,调查项目的设定取决于调查目标。
2. 确定调查对象和调查单位
调查对象和调查单位是根据调查目的而确定的。所谓调查对象是指需要调查和研究的由许多性质相同
的调查单位所组成的现象总体。所谓调查单位,是指所要研究的个体,也就是我们所要调查的具体单位,
它是进行调查登记的标志承担者。例如,调查目的是为了获取国有企业的改制状况,那么,所有的国有企
业就是调查对象,而具体的每一个国有企业就是调查单位。
确定调查对象是一个比较复杂的问题,因此,必须明确总体界限,划清调查的范围,区别应调查和不
应调查的现象。例如调查城镇居民家庭收入状况,必须把城镇居民家庭与农村居民家庭的收入区分开来;
调查城镇家庭中工人收入状况,除了明确城镇家庭的范围外,还必须区分工人的界限。确定调查单位,既
是一个理论问题,又是一个实际问题,从理论角度出发,就是要赋予调查单位以科学的定义。从实际工作
出发,还要区分调查单位与报告单位。调查单位是调查项目的承担者,而报告单位则是负责上报调查资料
的单位。两者有时一致,有时不一致。上面例子中,当收集城镇居民家庭收入状况资料时,每一个城镇家
庭既是调查单位,也是报告单位;当收集居民家庭中工人收入状况资料时,城镇居民家庭中的工人则是调
查单位,而城镇居民家庭则是报告单位。
3. 确定调查项目
调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标
志和数量标志所构成。调查项目所要解决的问题是,向被调查者调查什么,即需要被调查者回答什么问题。
在拟定调查项目时应注意如下四个问题:(1)调查少而精;(2)需要和可能相结合;(3)调查项目之间应
具有联系性;(4)有的项目可拟定“选择式”。
列入计划的调查项目是依据调查目的而确定的,仍以历年的人口普查为例,1953 年人口的项目为:
与户主关系、姓名、性别、年龄、民族以及本户住址 6 项;1964 年人口普查增加了本人成分、文化程度
和职业 3 个项目;1982 年人口普查项目增加为 19 项,增加了常住人口的户口登记状况、在业人口的行业、
职业和不在业人口状况,生育子女总数、存活子女总数和生育胎次等;1990 年人口普查项目增加到 21 项,
增加了“五年前居住地及其城乡类型”和“迁移原因”两个项目。
4. 调查表与问卷的设计
调查表,就是把若干调查项目按照一定的顺序排列在表格上,就形成了调查表。调查表一般有两种:
一种是一览表,另一种是单一表。一览表是在调查项目不多时采用,它是将许多调查单位填写在一张表上;
单一表一般用于项目较多的调查,该表可容纳较多的标志,每个调查单位填写一份。调查时应采用哪种表
式,则需根据调查的目的和任务而定。利用调查表,能够有条理地收集到所需要的资料,便于资料汇总整
理。
问卷调查是一种特殊的调查形式,根据调查目的,在调查对象中随机选择或有意识地确定调查单位。
问卷是以书面文字或表格的形式了解被调查者的意见,被调查者可自愿、自由地回答问卷中所提出的问题。
在设计调查表和问卷时,应尽可能地简明扼要,便于被调查者回答,以保证所收集资料的准确性。
5. 确定调查时间和调查期限
调查时间是指调查资料所属的时间。在统计调查中,有的资料所反映的现象是在某一时点上的状态,
这时必须规定统一的时点;有的资料所反映的现象是在某一时期内发展过程的结果,这时则必须明确所要
收集的资料所属时期的起止时间;即所登记的资料应是该时期第一天到最后一天的累计数字。如,我国第
五次人口普查的调查标准时点是 2000 年 11 月 1 日零点;例如,调查某年第二季度全国钢铁产量,则调查
时间应从 4 月 1 日起至 6 月 30 日止。调查期限是指进行调查工作的时限,即调查工作的起止时间,它包
括收集资料和报送资料的工作所需要的时间。为保证资料的时效性,调查时限应尽可能地缩短。例如,我
国第五次人口普查规定的时限为:2000 年 11 月 1 日至 11 月 10 日登记完毕,则调查时限为 10 天。
统计学 第二章 数据的收集与整理
第 5页
6. 制定调查的组织实施计划
制定严密细致的实施计划,是统计调查得以顺利进行的必要保证。调查工作的组织计划包括的内容是:
建立调查机构,组织与培训调查人员,确定调查步骤,明确调查方式、方法及调查地点,落实调查经费的
来源与经费使用计划,确定调查资料的报送方法和公布调查结果的时间等。
三、统计调查方法
1. 现场观察法
现场观察法是观察者带有明确目的到观察现场,借助人的视觉、听觉或者录音录像设备,对调查对象
进行直接观察而获得信息资料的一种收集方法,又称为直接观察法。其优点,能够保证所收集资料的准确
性;其缺点,观察成本较大(耗用人力、物力、财力、时间等较大),由于观察者认识事物的能力不同,
并带有主观见解,其结果往往因人而异。采用该种方法则应遵循:客观性、全方位性、深入性、持久性以
及遵守纪律与道德等原则。
2. 报告法
报告法亦称通讯法。这种方法是被调查者根据统计报表的格式要求,按照隶属关系,逐级向有关部门
上报统计资料的一种调查方法。这种方法是根据《统计法》的规定,要求各地区、各部门、各单位必须对
国家履行的一种义务。现行统计报表制度就是采用的这种方法。
3. 问卷法
问卷法,是指资料收集者运用统一设计的问卷向被调查者了解情况、征询意见的资料收集方法。问卷
法的优点是:省时、省钱、省力,所得资料便于定量处理与分析,可以避免主观偏见、减少误差,具有很
好的匿名性;问卷也有缺点,即:回收率以及资料的质量均难以保证。运用此法在设计问卷时,应注意:
所提问题要简短、准确,避免复重提问,提问应避免带有倾向性和诱导性,更不要直接提出具有敏感性或
威胁性的问题。
4. 访谈法
访谈法是有目的、有计划、有方向的运用口头交谈方式向被调查者了解问题的一种统计资料收集方法。
它的基本性质是具有显著的目的性、计划性与方向性。该种方法的优点是:被调查对象的回答率大大高于
问卷法,适应性强,调查内容机动性大,访谈者对资料收集过程可进行有效控制。其缺点是:访谈成本大,
匿名性差,访谈结果与访谈人员的素质、能力及其现场表现直接相关。
5. 实验采集法
实验采集法,是指资料收集者,通过实验对比获取统计资料的一种方法。一般作法是,从影响问题的
诸多因素中选出一至若干个因素,在一定的实验条件下观察其反映,然后对实验结果进行对比分析,并确
定是否大规模推广。
实验收集法的应用范围较广。如对某一商品在改变其品种、价格、包装、广告等任何因素时,均可采
用此方法。一般是先作小规模的试验性改变,以观察顾客的各种反映。具体的试验方法有试用、试穿、试
听、现场表演等等。利用该种方法可以取得较为正确的原始资料,但其成本高、研究时间长。
四、统计调查的组织方式
1. 统计报表
统计报表(statistical report forms)是指依照国家统计局或国家各行政管理部门的规定,自上而下地统
一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间与报送程序,自
下而上地逐级定期提供基本统计资料的一种调查方式。
2. 普查
普查(census)是对调查对象的全部调查单位逐一进行的调查。其特点:是一次性调查,是专门组织
的全面调查,即普查主要用来调查属于一定时点上的现象总量。普查主要用来全面、系统地掌握重要的国
情国力方面的统计资料。由于普查涉及面广、耗费人、财、物多、组织工作繁重,因此只能按一定周期进
行。普查的具体方式有两种:一种是通过专门组织的普查机构自上而下的对被调查单位直接进行登记。如
统计学 第二章 数据的收集与整理
第 6页
我国人口普查就采用这种形式,另一种是利用被调查单位的原始记录与核算资料,调查单位分发一定的调
查表,由被调查单位自行填报。如我国在 1955 年对私营商业及饮食业的普查就采用这种形式。
各个国家对普查都给予的充分的重视,甚至把普查看作是仅次于战争的“运动”。西方国家几乎没有
统计报表制度,所以全面的资料只能依靠普查获得。美国有专门的普查局负责各类普查,并有专门网页提
供相关信息与资料。点击下面的链接,在右上方有“Population Clock”,敲敲看。
网络链接: 美国普查局 http://www.census.gov/
根据国务院的决定,我国于 2001 年进行了第二次全国基本单位普查。国家统计局普查中心对普查结
果进行了系列分析,形成了丰富的信息资源。
网络链接: 国家统计局普查中心的分析资料 http://www.stats.gov.cn/tjfx/ztfx/decjbdwpc/
3. 抽样调查
抽样调查(sampling survey)是一种非全面调查,它是在全部调查单位中抽取一部分单位作为样本进
行调查,再根据调查结果推断总体的一种调查方法。广义的抽样调查包括随机抽样与非随机抽样。
非随机抽样是一种按照人们主观愿望选取样本的方法,如下面提到的重点调查和典型调查,也称为有
目的的调查、判断调查和定额调查。这些抽样的目的是要通过了解一部分个体的情况而获取全面的信息。
但由于非随机抽样无法估计误差的概率,所以也就无法作统计推断。
我们一般提到的“抽样调查”主要是指随机抽样,其基本特征:一是样本单位是按随机原则抽取,这
就排除了主观因素对选择的影响;二是对所抽得的样本进行调查,取得数据,并据此推断总体特征。
抽样调查的组织方式主要有以下四种:
(1)简单随机抽样(simple random sampling),又叫纯随机抽样,是最简单、最普遍的抽样组织方法。
它是按照随机性原则直接从总体的全部单位中,抽取若干个单位作为样本单位,保证总体中每个单位在抽
选中都有同等被抽中的机会。随机抽选样本单位的具体做法有:抽签法、随机数字表法(见附录一)和用
计算机软件中的随机函数产生随机数。
(2)分层抽样(stratified sampling),又叫类型抽样,它是先将总体各单位按某一有关标志分成若干
个类型组,然后按照一定比例再从各类型组中随机抽取样本单位。在抽样调查实践中,经常遇到的情况是:
在动手设计抽样方案之前,我们对所要研究的总体构成已经有了某种程度的了解。例如已知总体单位分属
于不同类型的子总体;已知与调查标志相关的一些辅助标志等等。此时,我们可以而且应该利用这种事先
获得的有关信息来改进抽样方案设计,以提高抽样推断的精度。分层抽样就是这样一种组织方法。例如,
在职工家庭生活调查中,可先将全部职工按部门分为工业、商业、文教、卫生等部门,然后再从这些部门
中按一定比例抽选基本单位和职工户。采用这种抽样方法可以提高样本的代表性,减少抽样误差。对于那
些总体情况复杂、各单位之间差异较大、单位数量较多的抽样调查问题,一般都可以采用分层抽样的方法
进行抽样调查。
由于各个类型组的单位数一般是不相等的,从各个类型组中抽取多少样本单位有两种不同的确定方
法。一种是按各组标志值变动的大小来确定,没有统一的抽样比例;另一种是按比例抽样,即保持每组样
本单位数与样本容量之比等于各组总体单位数与全及总体单位数之比。
(3)系统抽样(systematic sampling),又叫等距抽样或机械抽样。它是先把总体所有单位按某一标志
排队,并根据总体单位数与样本单位数的比例计算出抽样距离和间隔,随机确定一个起始点作为第一个样
本单位,以后每隔相等的距离和间隔抽取样本单位。
对总体单位排队时所采用的标志,可以是与调查项目有关的,也可以是与调查项目无关的,前者称为
有关标志排队法;后者称为无关标志排队法。例如,对某校学生学习情况进行调查,如按身高排队就是无
关标志排队;如按考试分数排队就是有关标志排队。按无关标志排队的机械抽样,其抽样平均误差与简单
随机抽样十分接近,一般都采用简单随机抽样的平均抽样误差公式代替计算。而采用有关标志排队时,其
抽样平均误差一般要小于简单随机抽样的平均误差。
在实际进行抽样时必须注意到,机械抽样在排定顺序,且第一个样本单位的位置确定后,其余单位的
位置也就随之确定。因此,要避免抽样间隔和现象本身的周期性节奏相重合引起系统性的影响,如工业产
统计学 第二章 数据的收集与整理
第 7页
品质量抽查,产品抽查时间间隔不宜和上下班时间一致,防止发生系统性偏差。
(4)整群抽样(cluster sampling),将总体所有单位划分为若干个群(组),然后以群(组)为单位从
中随机抽取部分群(组),对抽中的群(组)内所有单位进行全面调查的抽样组织形式。如调查某县小学
教育情况,我们可以从该县中随机抽取若干个小学,然后对抽中的小学进行全面调查。整群抽样与前面三
种抽样组织方法相比,是抽样单位扩大了,即抽取的基本单位不再是总体单位而是群(组)。
Excel 提供了帮助我们进行抽样的工具,可以进行简单随机抽样和系统抽样。
【例题 2.1】根据数据集 03 中的 470 人名单,如何抽取一个样本容量为 10 的随机样本?
【解】
Excel 解决方案
① 将数据集 03 中的序号摘出,要求在这 470 个人员中随机抽取 10 人
② 选择菜单“工具”—“数据分析”,打开“数据分析”对话框,见图 1.13
③ 选择其中的“抽样”,打开对话框,见图 2.1
④ 正确填写相关信息后,点“确定”,结果将 C 列中见图 2.2,图中 E 列是又一次运行
的结果。
图 2.1 “抽样”分析工具对话框
图 2.2 随机抽样的采集结果
抽样调查是世界上许多国家收集资料的重要方法。随着改革的不断深化,我国官方统计对调查方法进
行了一系列的改革,要求各统计主体在各领域广泛采用抽样调查方法以逐步取代传统的统计报表,以确立
它在统计调查方法体系中的主体地位。有关抽样调查的理论及方法将在本书第五章作详细介绍。
4. 重点调查
重点调查(key-point survey)是指在调查对象中,选择一部分重点调查单位收集统计资料的一种非全
面调查。所谓重点调查单位,是指这些被调查的总体单位中数目不多,所占比重不大,但其调查的标志值
却在总量中占有很大比重,在总体中具有举足轻重的作用。通过对这部分重点单位的调查,可以从数量上
说明总体在该标志总量方面的基本情况。当调查任务只要求掌握基本情况,而部分单位又能比较集中地反
映所要研究的问题时,采用重点调查较为适宜。比如,对钢铁行业的调查,由于大型的钢铁企业为数不多,
但产出量却很大,因此可以通过对少数企业的调查,而掌握整个行业大致情况。
5. 典型调查
典型调查(model survey)是指根据调查目的与要求,在对所研究现象全面分析的基础上,有意识地
选择有代表性的典型单位进行深入细致地调查,以便认识事物的本质与发展变化规律的一种非全面调查方
法。所谓典型单位,是指那些能充分、集中地体现调查对象总体某些方面共性特征的最有代表性的单位。
统计学 第二章 数据的收集与整理
第 8页
典型调查方式有两种:一是“解剖麻雀”式调查,它在调查对象总体单位之间的差异较小时适用。这
时,只选择个别典型单位进行深入细致的调查,以便通过对典型单位特征的认识来找出同类事物的一般情
况及其发展变化规律。二是“划类选典”式的调查,它在调查对象总体各单位之间的差异较大时适用。这
时,先对调查对象总体进行分类,然后从各类中选择少数具有代表性的典型单位进行深入细致地调查,以
便找出事物的发展化规律并以此对调查对象总体进行推断估计。
各种统计资料收集的组织方式,我们可以根据自己的统计任务与要求灵活选用。
第二节 数据的整理
数据的整理,是根据统计研究的目的与要求,对所收集到的大量、零星分散的原始资料进行科学加
工与综合,使之系统化、条理化、科学化,为统计分析提供反映事物总体综合特征资料的工作过程。它的
一般程序则是:统计资料的审核认定、统计资料分组、统计资料汇总、编制统计表、绘制统计图。其核心
则是统计资料分组。
一、数据的审定
调查资料的审定目的,就是要保证资料的准确性,尽可能地缩小调查误差。调查误差是指经过调查所
获得的统计数值与被调查对象实际数值之间的差别。调查误差有两种:一种是登记误差,一种是代表性误
差。登记误差是由于调查过程中各有关环节工作的失误而造成的。例如,调查方案中有关规定或解释不清
楚而产生歧义,或计算错误、抄录错误,或汇总错误以及不真实填报等。代表性误差是由于非全面调查只
观察总体一部分单位,这部分单位不能完全反映总体的性质而产生的误差。
所谓审定就是对调查资料的准确性、完整性和及时性进行检查。审定可以采用计算机审定,也可以采
用人工审定。
二、数据的分组
1. 数据分组的概念
数据分组,是指根据统计总体内在的特征与统计研究的任务需要,将统计总体按照一定的标志划分为
若干组成部分的一种统计方法。数据分组的目的,就在于把同质总体中的具有不同性质的单位分开,把性
质相同的单位合并在一起,保持各组内数据的一致性和各组之间数据的差异性,以便进一步研究调查对象
的数量表现与数量关系,进而正确认识调查对象的本质及其规律性。例如,在我国人口普查中,作为个体
的每个人,在年龄、性别、民族、文化程度以及居住地等诸多调查标志上不完全相同。为反映我国人口总
体内部的差异、就需要按照不同的标志对全国人口进行分组。如,按性别可分为男、女两组;按年龄、民
族可划分为若干组,这就有助于对我国人口的性别、年龄、民族等各方面的结构及其比例关系的认识。
2. 数据分组的作用
一是区分总体类型,现象的类型是多种多样的,不同类型的现象存在本质差别,通过统计资料的分组
就可以把不同类型的现象区别开来;二是反映总体内部结构,通过分组,统计总体被划分为若干组成部分,
计算各组成部分的总量在总体总量中所占的比重,即可反映总体结构特征与总体结构类型;三是可以分析
总体在数量现象之间的依存关系,现象之间总是相互联系、相互依存、相互制约的,分组就是要在现象各
种错综复杂的联系中,找出内在的联系和数量关系。具体作法,可将一个可变标志(自变量)作为分组标
志,来观察另一个标志(因变量)相应的变动状况。如居民家庭收入与就业人数有关密切的联系。通过分
组就可以反映这两个标志之间相互联系的程度和方向。
3. 数据分组的原则
要保证分组的科学性,要遵循“穷尽原则”和“互斥原则”。“穷尽原则”是指各分组的空间必须容纳
所有个体单位,即总体中的每一个个体都必须有组的归属。如劳动者按文化程度分组,若只分为小学、中
学毕业、和大学毕业三组;那么,未上过小学的以及大学以上文化程度的劳动者就无组可归。这种分组未
作到“穷尽”。互斥原则是指在特定的分组标志下,总体中的任何一个单位不能同时归属于几个组,而只
能归属于某一组。把鞋子分为男鞋、女鞋、童鞋三类,就不符合互斥原则,因为童鞋也有男鞋与女鞋之分。
统计学 第二章 数据的收集与整理
第 9页
4. 数据分组的种类
对数据的分组是按照不同的标志进行的。分组标志则是进行分组的标准和依据。因此,分组标志能否
正确地选择,则关系到分组的科学性。为此,必须根据统计研究的目的和任务来选择分组标志;必须在若
干个可以选择的标志中,选择最能反映事物本质特征的标志作为分组标志。
按分组标志的多少,可分为简单分组与复合分组,简单分组是按照一个分组标志对所研究的对象进行
分组。如人口按性别分为男、女两组。复合分组是按照两个或两个以上的分组标志对所研究的对象进行分
组。这种分组,先按一个分组标志对所研究对象进行分组,然后再按第二个分组标志进一步分组,再次层
叠地按第三个分组标志分成更小的组。如表 2.1 对高校教师进行的复合分组。
表 2.1 高校教师的复合分组
第一标志(职务) 第二标志(年龄) 第三标志(性别)
高级职称
(教授、副教授)
45 岁以上 男
女
45 岁以下 男
女
非高级职称
(讲师、助教)
45 岁以上 男
女
45 岁以下 男
女
按分组标志性质不同,分为品质分组和数量分组。品质分组就是选择反映事物属性差异的品质标志进
行分组,并在品质标志变异的范围内,划分各组的性质界限,把总体分为若干性质不同的组成部分。数量
分组就是选择反映事物数量差异的数量标志进行分组,并在数量标志的变异范围内划定各组的数量界限,
把总体划分为若干性质不同的组成部分。
进行分组后,统计每组所拥有的次数,再将其列成表格,就形成了次数分布,以后我们经常会遇到这
类数据形式。
第三节 次数分布
一、次数分布数列及其种类
1. 次数分布数列的概念
次数分布是统计分组的重要形式。在统计分组的基础上,把总体全部单位按组归类整理,将其按一定
顺序加以排列,形成总体中每一个单位在各组间的分布,称为次数分布。分布在各组中的总体单位数,叫
做次数(frequency),亦称频数;次数与总次数的比值,叫做比率,亦称频率。把各组的频数或频率按照
一定的顺序排列而成的数列,称为次数分布数列,简称分布数列。次数分布数列是统计整理的结果,是进
行统计描述和统计分析的重要方法。
2. 次数分布数列的种类
由于分组标志不同,次数分布数列可分为两种:按照品质标志进行分组形成品质数列。它用来反映不
同属性的各组次数在总体中的分布状况,它由各组名称、各组频数或频率组成;按照数量标志进行分组形
成变量数列,它用来反映不同变量值的各组次数在总体中的分布状况,它由各组变量值和各组次数组成。
二、变量数列的编制
由于数列中每组变量值的多少及取值范围不同,变量分布数列可分为单项数列和组距数列两种。
单项数列就是每一个组只有一个变量值的数列。它是按变量值大小顺序排列的。单项数列是在变量值
不多以及变量值变动幅度不大时运用,一般是有多少个不同的变量值就分为多少个组。
组距数列是把变量的取值范围划分成若干区间,以一段变动区间为一个组的数列。即组距数列中的每
统计学 第二章 数据的收集与整理
第 10页
一个组是由一个变量值的区间表示。组距数列是在变量个数较多、变量值变动幅度较大的离散型变量时运
用,它又分为等距数例和异距数列。
变量数列的编制,主要是组距数列的编制。在编制过程中,一定要处理好如下几个问题:
1. 组数与组距
组距数列是用变量值变动的一定范围代表一个组,每个组的最大值为组的上限,最小值为组的下限。
每个组的上限与下限间的距离称为组距。编制时,先要找全距(R),即全部变量的最大值与最小值的距离;
然后确定组数(m),实际工作中,主要凭经验确定,也可按不同的组数进行试验,比较其次数分布表,看
哪一个能够更好地显示出分组数据的特征,另外有一个经验公式—“斯透奇斯规则”(Sturges' rule),m = 1
+ 3.322 lgN,(N 为总次数)是帮助确定组数的;组数与组距(i)的关系是:i=R/m,两者成反比变化。
根据各组距是否相等分等距数列和异距数列,编制何种应根据统计研究的目的来确定。采用等距分组
目的是为了直接比较各组次数分布或分析对比各组的指标;采用异距分组目的是为了从数量上区分性质不
同的总体。组距数列中还可以区分闭口数列与开口数列:闭口数列是指首末两组的上、下限齐全的数列;
开口数列是指首组组距缺下限或末组组距缺上限的数列。
2. 组限和组中值
组限的表示方法,应根据所研究现象的性质而定,并要注意如下几点:第一,第一组(最小组)的下
限不能大于最小变量值;最末一组(最大组)的上限不得小于最大变量值;这就能够使同质的总体单位在
同一组内,而使标志值在各组的变动,能够反映事物质的变化。第二,组限应是引起事物质变的数量界限,
并有利于表现总体分布的规律性。第三,分组变量可分为离散变量与连续变量,它们的组限表示方法也是
不同的。在划分离散变量的组限时,相邻组的组限可以间断,而在划分连续变量的组限时,相邻组的组限
必须重叠,并在统计次数时,一般应遵循“上组限不在内”的原则。这是因为,在对连续变量分组时,每
一组的上限同时又是下一组的下限,即相邻两组的上限与下限是用同一数值表示的。为了避免计算的混乱,
一般是把达到上限数值的单位数计入下一组内。
组数、组距、组限确定后,把全部的变量值归类列各组,并按顺序排列,就是所要编制的变量数列了。
在统计分析中,通常会以组中值来代表各组标志值的平均水平,当各组标志值均匀分布时,组中值所
代表的各组标志值的水平,其代表性就高。组中值,就是组的上下限之间的中点数值,计算公式:
闭口组的组中值=(上限+下限)/2
缺下限的开口组组中值=上限—邻组组距/2;缺上限的开口组组中值=下限+邻组组距/2
【例 2.2】江浦县苗圃对 110 株树苗的高度进行测量(单位:厘米),数据如下,编制次数分布表。
154 133 116 128 85 100 105 150 118 97 110 131 119 103 93 108 100
111 130 104 135 113 122 115 103 90 108 114 127 87 127 108 112 100
117 121 105 136 123 108 89 94 139 82 113 110 109 118 115 126 106
108 115 133 114 119 104 147 134 117 119 91 137 101 107 112 121 125
103 89 110 122 123 124 125 115 113 128 85 113 143 80 102 132 96
129 83 142 112 120 107 108 111 100 97 111 131 109 145 93 135 98
142 127 106 110 101 116 110 123
【解】
第一步,先将 110 个数据排序,找出最大值 154 和最小值 80, 这个数列的全距 R=154-80=74 厘米。
第二步,根据斯透奇斯规则确定组数:m = 1 + 3.322×(lg110) = 7.78,再根据组数与组距的关系确定组
距:i= R/m = 74/7.78 =9.51(厘米)。根据以上的计算结果,组数定为 8 组;组距定为 10 厘米。
特别注意 在用经验公式计算 m 和 i 时,计算结果的取舍,不采用四舍五入法,而采用舍去进一法,
即:只要有小数,就把小数舍去,并在整数位上加 1。这种做法保证次数分布表有足够宽的复盖区间。另
外,一般说来组距宜于取整百整十,起始组的下限也宜于取整百整十,这样看起来比较舒服。还有,有些
数据本身是有特殊或固定的分组要求的,如学生成绩如果出现“54-62”这样一组,则将不同性质的学生混
在了一起,即在这组里有成绩不合格的学生,又有成绩合格的学生,这样的分组肯定是错误的。
第三步,根据所定组数和组距确定组限。第一组下组限定为 80,第一组上组限则为 90(即 80+10);
统计学 第二章 数据的收集与整理
第 11页
第二组下组限就是第一组上组限,第二组上组限为 100;……;依此类推,第八组下组限是 150,其上组
限则为 160。这样共有 8 个下组限和 8 个上组限。由于有重合值,故只有 9 个组限值。
第四步,进行归组,即将各个变量值归入相应的组中,比如 154 归入第八组(150-160);133 归入第
六组(130-140);……;依此类推。最后的结果用次数分布表显示,见表 2.2。
表 2.2 树苗高度的次数分布表
树苗高度 x(厘米) 树苗数 f
80-90 8
90-100 9
100-110 26
110-120 30
120-130 18
130-140 12
140-150 5
150-160 2
合计 110
如果数据量很大,归组的工作会很烦人,Excel 中有“FREQENCY”函数,可以完成这一任务。
FREQENCY 函数的格式为:=FREQUENCY(ARRAY, BINS) 其中 ARRAY 是指原始资料的存放区域,BINS
是指统计分组的组上限构成的数值序列。图 2.3 是用 Excel 操作过程与结果的部分截图。
Excel 解决方案
① 输入原始资料,本例的资料存放在 A2:A111
② 计算基础数据,如 B、C 列,B 列是文字提示,C 列存放的是相应公式和函数
③ 输入分组标志,如本例的 D 列;列出各组的上限,如本例的 H3:H10
④ 用鼠标选定函数返回值存放的区域,如本例应选 I3:I10
⑤ 输入函数“=FREQUENCY(A2:A111,H3:H10)”
⑥ 同时按下组合键“Ctrl+Shift+Enter”,计算机会将统计出的次数放在 I3:I10 中
特别注意 FREQUENCY 函数在统计次数时,将与对应上限值一样大的数也统计在内。以第一个上限
为例,若 H3 中上限定为 90,当原始资料中恰有 90 时,则该“90”被计入这一组,这样就和我们常说的
“上限不包括原则”相违背,因而我们在 H 列所列的上限必须是一个略小于 90 的数,如 89.5。
图 2.3 用 FREQUENCY 函数完成次数统计
统计学 第二章 数据的收集与整理
第 12页
4. 次数分布表
表 2.2 是一个最简单的次数分布表,我们还可以对简单表中的数据进行计算汇总,得到一个内容更加
丰富的次数分布表,见表 2.3。
表 2.3 树苗高度的次数分布表
树苗高度 x(厘米) 频数 f
(棵)
频率
(%)
向上累积 向下累积
频数(棵) 频率(%) 频数(棵) 频率(%)
80-90 8 7.3 8 7.3 110 100.0
90-100 9 8.2 17 15.5 102 92.7
100-110 26 23.6 43 39.1 93 84.5
110-120 30 27.3 73 66.4 67 60.9
120-130 18 16.4 91 82.7 37 33.6
130-140 12 10.9 103 93.6 19 17.3
140-150 5 4.5 108 98.2 7 6.4
150-160 2 1.8 110 100.0 2 1.8
合计 110 100 — — — —
我们可以将各组的频数除以总次数,得到频率,用以代表各组占总次数的比率。如 30/110=27.3%,则
表示树苗高度在 120-130 厘米之间的树苗占所有树苗的 27.3%。
向上累积有时又称“较小制累计”,它表示的是低于某分组上限的频数与频率,如树苗高度在 120 厘
米以下的树苗有 73 棵,占总数的 66.4%;向下累积有时又称“较大制累计”,它表示的是高于某分组下限
的频数与频率,如树苗高度在 110 以上的树苗有 67 棵,占总数的 60.9%。
统计学 第二章 数据的收集与整理
第 13页
英文摘要与关键词
The collection and reorganization of statistical data are important components of statistical
work, as well as the working process of collecting data systematically and purposefully based on the
aims and requests of statistical analysis, classifying and packing up data, and condensing and
simplifying data. They are the prerequisite of conducting statistical analysis, and the key to
guaranteeing the statistical data is objective and real.
Statistical data collected include primary data and secondary data, and the main form of
collecting data is through statistical survey. The design of a statistical survey scheme includes
identifying the aim of the survey, fixing on the survey object, the survey unit, the survey item, the
survey time and time limit, designing the survey table and questionnaire, and formulating the
program for organizing and conducting the survey. The method of statistical survey mainly includes
the methods of field observation, the report, the questionnaire, the interview and direct
experimentation. The organizational form of the statistical survey primarily includes the statistical
report form, the census, the sampling survey, the key-point survey and the model survey.
The reorganization of statistical data chiefly includes the auditing of statistical data, the
grouping of statistical data which is the core of the reorganization of statistical data, the summary of
statistical data, the construction of a statistical table, and the plotting of a statistical graph. The
grouping of statistical data includes simple classification and compound classification. A frequency
distribution is a summary table in which the data are arranged into conveniently established,
numerically ordered class groupings or categories. Excel gives us a Frequency function for
establishing this distribution.
Key words: primary data, secondary data, statistical survey, statistical grouping,
frequency distribution
统计学 第二章 数据的收集与整理
第 14页
习 题
一、单项选择题
1.小吴为写毕业论文去收集数据资料,( )是次级数据。
A.班组的原始记录 B. 车间的台帐 C. 统计局网站上的序列 D. 调查问卷上的答案
2.人口普查规定标准时间是为了( )。
A.避免登记的重复与遗漏 B.将来资料具有可比性 C.确定调查单位 D.登记的方便
3.要了解某商场电视机的库存情况,宜采用( )。
A.现场观察法 B.实验采集法 C.问卷法 D.访谈法
4.检查产品寿命应采用( )。(知识点:2.4 答案:B)
A.普查 B.抽样调查 C.重点调查 D.典型调查
5.为掌握商品销售情况,对占该市商品销售额 80%的五个大商场进行调查,这种调查方式属于( )。
A.普查 B.重点调查 C.抽样调查 D.统计报表
6. 将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为( )。
A. 分层抽样 B. 简单随机抽样 C. 整群抽样 D. 等距抽样
7. 整群抽样是对被抽中的群作全面调查,所以整群抽样是( )。
A. 全面调查 B. 非全面调查 C. 一次性调查 D. 经常性调查
8.统计整理所涉及的资料( )。
A.原始数据 B.次级数据 C.原始数据和次级数据 D.统计分析后的数据
9.在进行数据分组时,首先考虑的是( )。
A.分成多少组 B.选择什么标志分组 C.各组差异大小 D.分组后计算方便
10.某连续变量数列末位组为开口组,下限为 200,相邻组组中值为 170,则末位组中值为( )。
A.230 B.200 C.210 D.180
二、多项选择题
1.统计调查方案的主要内容是( )( )( )( )( )。
A.调查的目的 B.调查对象 C. 调查单位 D.调查时间 E.调查项目
2.全国工业普查中( )( )( )( )( )。
A.所有工业企业是调查对象 B.每一个工业企业是调查单位 C.每一个工业企业是报告单位
D. 每个工业企业的总产值是统计指标 E.全部国有工业企业数是统计指标
3.普查是( )( )( )( )( )。
A.非全面调查 B.专门调查 C.全面调查 D.经常性调查 E.一次性调查
4.全面调查形式有( )( )( )( )( )。
A.重点调查 B.抽样调查 C.典型调查 D.统计报表 E.普查
统计学 第二章 数据的收集与整理
第 15页
5. 哪几种抽样方式可以通过提高样本的代表性而减小抽样误差?( )( )( )( )( )。
A. 分层抽样 B. 简单随机抽样 C. 整群抽样 D. 等距抽样 E. 普查
6. 根据树苗高度的次数分布表,下面哪些说法是正确的?( )( )( )( )( )。
树苗高度 x(厘米) 频数 f
(棵)
频率
(%)
向上累积 向下累积
频数(棵) 频率(%) 频数(棵) 频率(%)
80-90 8 7.3 8 7.3 110 100.0
90-100 9 8.2 17 15.5 102 92.7
100-110 26 23.6 43 39.1 93 84.5
110-120 30 27.3 73 66.4 67 60.9
120-130 18 16.4 91 82.7 37 33.6
130-140 12 10.9 103 93.6 19 17.3
140-150 5 4.5 108 98.2 7 6.4
150-160 2 1.8 110 100.0 2 1.8
合计 110 100 — — — —
A. 树苗高度低于 110 厘米的占总数的 39.1% B. 树苗高度低于 110 厘米的占总数的 84.5%
C. 树苗高度高于 130 厘米的有 19 棵 D. 树苗高度高于 130 厘米的有 103 棵
E. 树苗高度在 130-140 厘米之间的树苗占总数的 10.9%
三、制表
1. 某高校二级学院 60 名教职员工的月岗位津贴资料如下:
1100 1200 1200 1400 1500 1500 1700 1700 1700 1800
1800 1900 1900 2100 2100 2200 2200 2200 2300 2300
2300 2300 2400 2400 2500 2500 2500 2500 2600 2600
2600 2700 2700 2800 2800 2800 2900 2900 2900 3100
3100 3200 3200 3300 3300 3400 3400 3500 3500 3600
3600 3800 3800 4200 3800 3600 3500 3400 3100 3100
依据上述资料编制组距变量数列,并用次数分布表列出各组的频数和频率,以及向上、向下累积的频
数和频率。
2. 根据数据集 02 中 F 列的“妇女期望寿命”编制次数分布表,列出各组的频数和频率,以及向上、
向下累积的频数和频率。
来源:
http://www.njcdtjx.com/ 南京财经大学-统计学系
http://www.njcdtjx.com/news.asp?key=2046 统计学