第
5
章 数据的频数分布
5.1
频数与频率
温故知新
在前面的学习中,我们知道一组数据的平均数(中位数
、众数
)、方差反映了这组数据一般的、全局的性质,但这还不够,在许多实际问题中,我们还需要对收集的数据进行必要的归纳和整理,了解其分布情况,从而更具体地掌握这组数据
.
为推广
全民健身运动,某单位组织员工进行
爬山比赛
,
50
名
报名者的年龄如下:
22 25
27 35 37 49 48 52 57 59 60 26
58 39 41 45 47 23 26 30 32 33 36 43 29 20 23 20
51 53
50 34 38 58 26 48 34
37 51 55 21
38 40 54
42 60 21 25 26 55
为了公平
起见, 拟分成青年组(
35
岁以下)、中年组(
35~ 50
岁)、老年组(
50
岁以上) 进行分组竞赛
.
请
用整理数据的方法,借助统计图表将上述数据进行表述
.
思考
可以采用“画记” 的方法得到下表:
组别
画计
报名人数
青年组(
35
岁以下)
正
正 正 正
20
中年组(
35~50
岁)
正
正
正
17
老年组(
50
岁以上)
正 正
13
根据上表可以发现,青年组报名人数最多,中年组其次, 老年组最少
.
频数与频率
我们把在不同小组中的数据个数称为
频数
.例如,上表中
20
,17
,13
分别是青年组、中年组、老年组的频数.
我们把每一组的频数与数据总数的比叫作这一组数据的
频率
,如上表中青年组的频数为
20
, 频率为
我们还可以用条形统计图来表示各组人数
.
【例】小芳参加了射击队,在一次训练中,她先射击了
15
次
,教练对其射击方法作了一些指导后, 又射击了
15
次
.
她两
次射击得分情况如下表:
前
15
次射击得分情况
次数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
环数
7
8
7
7
8
9
8
8
9
7
8
7
7
9
9
次数
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
环数
8
8
7
10
8
9
9
8
9
10
10
9
9
8
10
后
15
次射击得分情况
(
1
) 用表格表示小芳射击训练中前
15
次和后
15
次射击
得分的
频数和频率
.
(
2
) 分别求出前
15
次和后
15
次射击得分的平均数(精确
到
0.01
),比较射击成绩的变化
.
解:(
1
) 经整理, 各个数据的频数和频率如下:
前
15
次射击得分情况
后
15
次射击得分情况
环数
7
8
9
10
频数
6
5
4
0
频率
0.40
0.33
0.27
0
环数
7
8
9
10
频数
1
5
5
4
频率
0.40
0.33
0.33
0
从表中可以看出,在小芳前
15
次的射击成绩中,
7
环最多,
8
环其次,
9
环较少,
10
环没有
;后
15
次射击成绩中,
7
环最少,
8
环和
9
环最多,
10
环有
4
次
.
(
2
) 前
15
次射击成绩的平均数是:
同理可求得后
15
次射击成绩的平均数是
8.80.
后
15
次平均数大,说明经过调整射击方法后, 小芳得高分的次数增加,平均成绩得到了提高
.
1.
某班进行
1 min
跳绳测验,
40
名同学跳绳的成绩(单位:次
)如下
:
100 50 120 90 70 80 110 120 130 140
75 85 97 108 111 118 122 98 80 90
98 102 106 60 65 99 100 116 107 98
80 86 97 99 101 88 146 117 95 116
(
1
) 按每分钟不足
60
次为“不达标”,
60 ~ 90
次为“良”
,
90
次以上为“优”, 编制成绩统计表(用频数和频率表示)
.
(
2
) 计算这个班的达标率
.
练习
解:(
1
)
该班同学跳绳成绩统计表如下:
成绩
不达标
优
良
频数
1
12
27
频率
0.025
0.3
0.675
(
2
)由统计表数据可知该班同学跳绳达标率为
0.3+0.675=0.975.
一枚硬币有两面,我们称有国徽的一面为“正面”,另
一面为
“反面”;掷一枚硬币,当硬币落下时,可能出现
“正面朝上”
,也可能出现“反面朝上”
.
每次掷币,两种情形必然出现一种,也只能出现一种
.
究竟出现哪
种情形
,在掷币之前无法预计,只有掷币之后才能知道
.
探究
与同桌同学合作,掷
10
次硬币,并把
10
次试验结果记录下来:
次数
1
2
3
4
5
6
7
8
9
10
结果
(
1
) 计算“正面朝上” 和“反面朝上” 的频数各是多少, 它们之间有什么关系?
(
2
) 计算“正面朝上” 和“反面朝上” 的频率各是多少, 它们之间有什么关系?
假设某同学掷
10
次硬币的结果如下:
次数
1
2
3
4
5
6
7
8
9
10
结果
反
正
正
正
反
反
反
正
反
反
根据表格易知,出现“正面朝上” 的频数是
4
,频率为
0.4
;出现“反面朝上”的频数是
6
,频率为
0.
6
.
可以发现,“正面朝上” 和“反面朝上” 的频数之和为试验总次数;而这两种情况的频率之和为
1.
一般地,如果重复进行
n
次试验,某个试验结果出现的次数
m
称为
这个
试验结果,在
这
n
次试验中出现的频数,而频数与试验总次数的比 称为这个试验结果在这
n
次试验中出现的
频率
.
全班每组同学抛掷一枚硬币
40
次,记录出现“正面朝上”
的
结果,将各组试验结果汇总,完成下表:
累计掷币次数
40
80
120
160
200
240
“正面朝上” 的频数
m
“
正面朝上” 的频率
练习
根据上表, 在下图中绘制“正面朝上” 的频率变化折线
统计图
.
通过本节
课
,你有
什么
收获?
你还存在哪些疑问,和同伴交流
.
我思
我
进步
第
5
章 数据的频数分布
5.2
频数直方图
频数直方图
本课内容
本节内容
5.2
一般地,一组数据中,每个数据出现的次数称为此数据的
频数
,而每个数据出现的次数与总次数的比值称为此数据的
频率
.
复习
频数
:
频率
:
每个数据出现的
次数
.
每个数据的次数与总次数的
比值
.
频率
=
频数之和等于总次数,频率之和等于
1.
复习
组数
分组
频数
频率
1
4.45
—
4.95
0.05
2
4.95
—
5.45
2
3
5.45
—
5.95
6
0.30
4
5.95
—
6.45
5
6.45
—
6.95
0.25
合计
1
0.10
5
20
6
0.30
1
篮球明星
频数
频率
A
B
C
D
合计
0.46
0.16
0.26
0.12
50
1
23
8
13
6
以上两个频数表是我们在上节课曾经见过的,仔细观察可以发现,它们统计频数的角度并不相同,左表是统计了每个数据出现的频数,而右表却是将数据分组后,统计了各组的频数,后者正是我们本课所学新知的
一部分
.
为了参加全校各个年级之间的广播操比赛,八年级准备从
63
名同学中挑出身高相差不多的
40
名同学参加比赛.为此收集到这
63
名同学的身高(单位:
cm
)如下:
探究
探究
158
158
160
168
159
159
151
158
159
168
158
154
158
154
169
158
158
158
159
167
170
153
160
160
159
159
160
149
163
163
162
172
161
153
156
162
162
163
157
162
162
161
157
157
164
155
156
165
166
156
154
166
164
165
156
157
153
165
159
157
155
164
156
选择身高在哪个范围内的学生参加呢?若你是决策者,你打算怎么做呢?
选择身高在哪个范围内的学生参加呢?
为了使选取的参赛选手身高比较整齐,需要知道数据的分布情况,即在哪些身高范围的学生比较多,哪些身高范围内的学生人数比较少.为此可以通过对这些数据适当分组来进行整理.
探究
要对数据进行分组,需要知道什么?
探究
1
.计算最大值和最小值的差,称为极差
.
在上面的数据中,最小值是
149
,最大值是
172
,它们的差是
23
,说明身高的变化范围是
23 cm
,即极差为
23
.
探究
2
.决定组距、组数和各组分点
把所有数据分成若干组,每个小组的两个端点之间的距离称为组距
.
如果我们将组距定为
3
的话,那么可以进一步确定组数为:
极差
÷
组距
所以可将数据分成
8
组.
探究
说明:
(
1
)根据问题的需要, 各组的组距可以
相同
,
也
可以彼此不同
.
本问题中, 我们作等距分组;
(
2
)组距和组数的确定没有固定的标准, 可根据所研究的具体问题来确定,但因为组距与组数之积就约等于极差,所以只需确定一个,另一个即可算出
.
(
3
)一般当数据在
100
个以内时, 可依数据个数的多少, 分成
5~12
组
.
探究
当我们确定了组距为
3
,组数为
8
后,我们可以进一步确定每组的分点,得到各组为:
149≤
x
<
152
,
152≤
x
<
155
,
155≤
x
<
158
,
158≤
x
<
161
,
161≤
x
<
164
,
164≤
x
<
167
,
167≤
x
<
170
,
170≤
x
<
173
.
说明:为了分组的方便, 我们可以取略小于最小值的数作为第一组的下限,而取略大于最大值的数作为最后一组的上限,每组一般包含下限,而不含上限
.
探究
3
.列频数分布表
对落在各个小组内的数据进行统计,得到各个小组内的数据的频数,整理可以得到频数分布表,如下表:
探究
分 组
频 数
149≤
x
<
152
2
152≤
x
<
155
6
155≤
x
<
158
12
158≤
x
<
161
19
161≤
x
<
164
10
164≤
x
<
167
8
167≤
x
<
170
4
170≤
x
<
173
2
注意画记的准确性
探究
从表中可以看出,身高在
155≤
x
<
158
,
158≤
x
<
161
,
161≤
x
<
164
三个组的人数最多,一共有
41
人,因此可以从身高在
155
~
164 cm
(不含
164 cm
)的学生中选队员.
探究
4
.画频数分布直方图
为了更直观地反映一组数据的分布情况,可以以频数分布表为基础, 绘制
频数分布
直方图
(
简称直方图
)
.
在直角坐标系中, 以组距为宽, 频数为高作
小矩形,就可以得到下面的直方图:
探究
频
数
(学生人数)
身高
/㎝
20
15
10
5
0
149 152 155 158 161 164 167
170
173
等距
分组的频数分布直方图
在绘制频数直方图时, 应注意:
1.
横轴和纵轴加上适当的刻度, 标明各轴所代表的名称和单位
.
2.
各个小矩形之间无空隙
.
3.
小矩形的边界对应于各组的组界
.
结论
做一做
你能从频数直方图中获得哪些信息?
(
1
) 学生们的身高主要集中在什么范围?
(
2
) 哪个范围的学生人数最多?
(
3
) 通过直方图,你还能还原出原始数据吗?
解:
(
1
)
主要集中在
152≤
x
<
167
;
(
2
)
158≤
x
<
161
的学生人数最多;
(
3
)通过直方图,仅能看出各组的频数,但已经失去了原始数据的信息
.
探究
如果
以横轴表示身高,
纵轴表示频数与组
距
的比值
,那么可以得到下面的直方图:
频数
/
组距
身高
/㎝
76
5
4
3
21
0
149 152 155 158 161 164 167 170 173
探究
在上面的直方图中,小长方形的面积表示什么?
答:从图中可以看出
,,因此
小长方形的面积表示数据落在各个小组内的频数.
说明:
在作频数分布直方图时
,如果是
等距离分组
的话
,
那么纵轴既可以就是该组的频数,也可以是频数与组距之比,但一般习惯按前者画图
.
练习
1.
一个容量为
80
的样本最大值为
141,
最小值为
50,
取组距为
10,
则可以分成
( ).
A. 10
组
B. 9
组
C. 8
组
D. 7
组
A
练习
2.
一个样本的频数分布直方图如图,则这个样本的中位数约是( )
A.4.5 B.3.5
C.5 D.5.5
C
中位数
—
当
数据有奇数个时,最中间数据在哪一组,则就是那组的组中值
;
当数据有偶数个时,最中间两个数据若在同一组,则就是那组的组中值;若分在相邻两个组,则是相邻两组组中值的平均数
.
注意
组别
3
5
7
4
2.5
3.5
4.5
5.5
6.5
频数(个)
0
5
15
25
35
0
10
20
30
40
频数(人)
年龄(岁)
1
11
38
25
14
8
6
5
5
15
25
35
45
55
65
75
3.
国家卫生部信息统计中心根据国务院新闻办公室发布的全国内地
2003
年
5
月
21
日至
5
月
25
日非典型性肺炎发病情况,按年龄段进行统计,如图所示(每组包括前一个
边界值
,不包括
后
一
个边界值)
(
1
)全国
内地
2003
年
5
月
21
日至
5
月
25
日共有
人患非典型性肺炎;
(
2
)年龄
在
10
~
20
(岁)这一组的人数是
,
占发病总人数的百
分是
;
(
3
)根据图形,年龄在
(岁)范围内人数发病最多
.
(
4
)你
能估计出这里所有患者年龄的平均数是多少?中位数是多少?
108
11
10.2%
20
~
30
4.
测量
36
名老人的血压,获得每位老人的舒张压数据
如下
(
单位:毫米汞柱
)
:
100
,
110
,
80
,
88
,
90
,
80
,
87
,
88
,
90
,
78
,
120
,
80
,
82
,
84
,
88
,
89
,
72
,
100
,
110
,
90
,
80
,
85
,
86
,
88
,
90
,
88
,
87
,
85
,
70
,
80
,
88
,
89
,
90
,
92
,
85
,
84.
(
1
)按组距
10
毫米汞柱将数据分组,列出频数分布表;
(
2
)画出频数分布直方图
.
组别(毫米汞柱)
频数
69.5
~
79.5
3
79.5
~
89.5
22
89.5
~
99.5
6
99.5
~
109.5
2
109.5
~
119.5
2
119.5
~
129.5
1
获得每
位老人舒张压的频数分布表如下:
2
0
4
6
8
10
12
14
16
18
20
22
24
74.5
84.5
94.5
104.5
114.5
124.5
频数(人)
舒张压(毫米汞柱)
为了简化,我们可以只标注每组的组中值
.
频数分布直方图如下:
小结与复习
绘制
频数分布
直方图的步骤
:
①计算
极差
,即
最大
值
与最小值的差;
②决定组距和组
数
(
极差≈组距
×
组数
);
③列频数分布表;
④以横轴表示数据,纵轴表示频数,画频数分
布直方图
.