§3.1 回归分析的基本思想及其初步(1)
【学情分析】:
教学对象是高二理科学生,学生已经初步学会用最小二乘法建立线性回归模型的知识,并能用所学知
识解决一些简单的实际问题。回归分析是数理统计中的重要内容,在教学中,要结合实例进行相关性检验,
理解只有两个变量相关性显著时,回归方程才具有实际意义。在起点低的班级中注重让学生参与实践,结
合画图表的方法整理数据,鼓励学生通过收集数据,经历数据处理的过程,从而认识统计方法的特点,达
到学习的目的。
【教学目标】:
( 1)知 识 与 技 能 : 回忆线性回归模型与函数模型的差异,理解用最小二乘法求回归模型的步骤,了解
判断两变量间的线性相关关系的强度——相关系数。
( 2)过 程 与 方 法 : 本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线
方程。
( 3)情 感 态 度 与 价 值 观 : 从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,
培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
1. 了解线性回归模型与函数模型的差异;
2. 了解两变量间的线性相关关系的强度——相关系数。
【教学难点】:
1. 了解两变量间的线性相关关系的强度——相关系数;
2. 了解线性回归模型与一次函数模型的差异。
【教学过程设计】:
教学环节 教学活动 设计意图
一、创设情
境
问题一:一般情况下,体重与身高有一定的关系,通常个子较高的人体重
比较大,但这是否一定正确?(是否存在普遍性)
师:提出问题,引导学生判断体重与身高之间的关系(函数关系、相
关关系)
生:思考、讨论。
问题二:统计方法解决问题的基本过程是什么?
师:提出问题,引导学生回忆用最小二乘法求回归直线方程的方法。
生:回忆、叙述
回归分析的基本过程:⑴画出两个变量的散点图;
⑵判断是否线性相关
⑶求回归直线方程(利用最小二乘法)
⑷并用回归直线方程进行预报
复习回归分析
用于解决什么样的
问题。
复习回归分析
的解题步骤
二、例题选
讲
探究活动:对于一组具有线性相关的数据(x ,y ),(x ,y )……,(x ,y
),我们知道其回归方程的截距和斜率的最小二乘估计公式分别为: =
+ ,
复习统计方法
解决问题的基本过
程。
学生动手画散
点图,老师用 EXCEL
1 1 2 2 n
n
^
a
−
y
^
b
−
x =
其中 = , = .( , )称为样本点的中心。你能推导出
这两个计算公式吗?
从已经学过的知识我们知道,截距 和斜率 分别是使
Q(α,β)= 取最小值时α,β的值。
由于
Q(α,β)=
=
= +2 +
n( -β -α) ,
注意到
=( )
=( )[ ]
=( [n ]=0,
所以
Q(α,β)= + n( )
=β - 2β +
的作图工作演示,
并引导学生找出两
个变量之间的关系。
学生经历数据
处理的过程,并借
助 EXCEL 的统计功
能鼓励学生使用计
算器或计算机等现
代工具来处理数据。
^
b
∑
∑
=
−
−−
=
−
−−
n
i
i
ii
n
i
xx
yyxx
1
2
1
)(
))((
−
x n
1 ∑
=
n
i
ix
1
−
y n
1 ∑
=
n
i
iy
1
−
x
−
y
^
a
^
b
∑
=
−−
n
i
ii xy
1
2)( αβ
∑
=
−−−−
−−+−−−
n
i
ii ]xyxyx[y
1
2)()( αβββ
∑
=
−−−−
−−−−
−−+−−
−−−+−−−n
i
iiii
}]xy[]xy
]xyx[y]xyx{y
1 2
2
)()(
)(2)(
αβαβ
ββββ
∑
=
−−
−−−
n
i
ii ]xyx[y
1
2)( ββ ∑
=
−−−−
−−−−−
n
i
ii xy]xyx[y
1
)()( αβββ
−
y
−
x 2
∑
=
−−−−
−−−−−
n
i
ii xy]xyx[y
1
)()( αβββ
αβ −−
−−
xy ∑
=
−−
−−−
n
i
ii ]xyx[y
1
)( ββ
αβ −−
−−
xy )(
1 1
−−
= =
−−−∑ ∑ xynxy
n
i
n
i
ii ββ
)αβ −−
−−
xy )(
−−−−
−−− xynxny ββ
∑
=
−−
−−−
n
i
ii ]xyx[y
1
2)( ββ αβ −−
−−
xy 2
2 ∑
=
−
−
n
i
i xx
1
2)( ∑
=
−−
−−
n
i
ii yyxx
1
))(( ∑
=
−
−
n
i
i yy
1
2)(+n (
=n( +
- +
在上式中,后两项和α,β无关,而前两项为非负数,因此要 Q 取得最
小值,当且仅当前两项的值均为 0,即有
β= ,
α= .
这正是我们所要推导的公式。
下面我们通过案例,进一步学习学习回归分析的基本思想及其应用。
问题三:思考例 1:从某大学中随机选取 8 名女大学生,其身高和体重数
据如表所示。求根据一名女大学生的身高预报她的体重的回归方程,并预
报一名身高为 172cm 的女大学生的体重。
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
题目中表达了哪些信息?
师:读例 1 的要求,引导学生理解例题含义。
(例题含义:①数据体重与身高之间是一种不确定性的关系
②求出以身高为自变量 x,体重为因变量 y 的回归方程。
③由方程求出当 x = 172 时,y 的值。
生:思考、讨论、叙述自己的理解,归纳出题目中的信息。
根据以前所学的知识,让学生自己动手求出回归方程
求解过程如下:
①画出散点图,判断身高 x 与体重 y 之间存在什么关系(线性关
系)?
2)αβ
−−
− xy
2)αβ −−
−−
xy ∑
∑
∑
=
=
−
=
−−
−
−
−−
−−
n
i
n
i
i
n
i
ii
i ]
xx
yyxx
[xx
1
2
1
2
12
)(
))((
)( β
∑
∑
=
−
=
−−
−
−−
n
i
i
n
i
ii
xx
]yyxx[
1
2
2
1
)(
))((
∑
=
−
−
n
i
i yy
1
2)(
∑
∑
=
−
=
−−
−
−−
n
i
i
n
i
ii
xx
yyxx
1
2
1
)(
))((
−−
− xy β②列表求出相关的量,并求出线性回归方程
代入公式有
所以回归方程为
③利用回归方程预报身高 172cm 的女大学生的体重约为多少?
当 时,
引导学生复习总结求线性回归方程的步骤:
第一步:作散点图—→第二步:求回归方程—→第三步:代值计算
三、探究新
知
问题四:身高为 172cm 的女大学生的体重一定是 60.316kg 吗?
(不一定,但一般可以认为她的体重在 60.316kg 左右.)
师:提出问题,引导学生比较函数模型与线性回归模型的不同,并引
出相关系数的作用。
生:思考、讨论、解释
解释线性回归模型与一次函数的不同
从散点图可观察出,女大学生的体重 和身高 之间的关系并不能用
一次函数 来严格刻画(因为所有的样本点不共线,所以线性模
型只能近似地刻画身高和体重的关系). 在数据表中身高为 165cm 的 3 名
女大学生的体重分别为 48kg、57kg 和 61kg,如果能用一次函数来描述体
引导学生了解
线性回归模型与一
次函数的不同
848.025.1658218774
5.5425.165872315ˆ
2
2
1
2
1 ≈×−
××−=
−
−
=
∑
∑
=
=
xnx
yxnyx
b n
i
i
n
i
ii
712.8525.165849.05.54ˆ −=×−=−= xbya
712.85849.0ˆˆˆ −=+= xxbay
172=x ( )kgy 316.60712.85172849.0ˆ =−×=
y x
y bx a= +
40
45
50
55
60
65
70
150 155 160 165 170 175 180重与身高的关系,那么身高为 165cm 的 3 名女在学生的体重应相同. 这就
说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果
(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型
,其中残差变量 中包含体重不能由身高的线性函数解释的
所有部分. 当残差变量恒等于 0 时,线性回归模型就变成一次函数模型.
因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次
函数模型的一般形式.
问题五:如何衡量两个变量之间线性相关关系的强弱呢?
相关系数:
相关系数的绝对值越接近于 1,两个变量的线性相关关系越强,它们
的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此
时建立的线性回归模型是有意义;相关系数的绝对值越接近于 0,两个变
量的线性相关关系几乎不存在,它们的散点图越离散,通常当 大于
时,认为两个变量有很强的线性相关关系。
问题六:例 1 中由体重与身高建立的线性相关关系有无意义?
生:动手计算本例中两个变量之间的相关系数, ,表明体
重与身高有很强的线性相关关系,从而表明我们建立的回归模型是有意义
的。
引导学生在解
决具体问题的过程
中,通常先进行相
关性的检验,确认
两变量间的线性相
关关系的强弱再求
线性回归方程。
结合实例的分
析和研究,正确地
进行相关性检验。
四、巩固练
习
1. 假设关于某设备的使用年限 x 和支出的维修费用 y(万元),有如下表
的统计资料。试求:
使用年限 x 2 3 4 5 6
维修费用 y 2.2 3.8 5.5 6.5 7.0
⑴画出数据的散点图;
⑵若 x 与 y 呈线性相关关系,求线性回归方程
y = bx + a 的回归系数 a、b;
⑶估计使用年限为 10 年时,维修费用是多少?
答案:⑴散点图如图:
⑵由已知条件制成下表:
1 2 3 4 5
2 3 4 5 6
2.2 3.8 5.5 6.5 7.0
4.4 11.4 22.0 32.5 42.0
4 9 16 25 36
巩固知识
e
y bx a e= + + e
( )( )
( ) ( )∑ ∑
∑
= =
=
−−
−−
=
n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
r 75.0
798.0=r
i
ix
ix
ii yx
2
ix
0
1
2
3
4
5
6
7
8
0 2 4 6 8
xi
y
i; ;
;
于是有
⑶ 回归直线方程是 ,
当 时, (万元)
即估计使用 10 年时维修费用是 12.38 万元。
五、小结 1. 熟练掌握求线性回归方程的步骤;
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶求回归直线方程(利用最小二乘法);
⑷并用回归直线方程进行预报。
2. 理解线性回归模型与一次函数的不同;
一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数
模型的一般形式.
3. 了解相关系数的计算与解释。
相关系数:
相关系数的绝对值越接近于 1,两个变量的线性相关关系越强,它们
的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此
时建立的线性回归模型是有意义;相关系数的绝对值越接近于 0,两个变
量的线性相关关系几乎不存在,它们的散点图越离散,通常当 大于
时,认为两个变量有很强的线性相关关系。
反思归纳
练习与测试
1. 设有一个回归方程为 ,则变量 增加一个单位时,则( C )
A. 平均增加 个单位 B. 平均增加 个单位
C. 平均减少 个单位 D. 平均减少 个单位
2. 在画两个变量的散点图时,下面哪个叙述是正确的( B )
A.预报变量在 轴上,解释变量在 轴上
B.解释变量在 轴上,预报变量在 轴上
C.可以选择两个变量中任意一个变量在 轴上
D.可以选择两个变量中任意一个变量在 轴上
3. 已知 x 与 y 之间的一组数据:
则 y 与 x 的线性回归方程为 必过( D )
A.(2,2)点 B.(1.5,0)点 C.(1,2)点 D.(1.5,4)点
4. 已知两个相关变量 与 具有线性相关关系,当 取值 1,2,3,4 时,通过观测得到 的值分别为
1.2,4.9,8.1,12.8,这组样本点的中心是( D )
x 0 1 2 3
y 1 3 5 7
4=x 5=y
∑
=
=
n
i
ix
1
2 90 ∑
=
=
n
i
ii yx
1
3.112
23.110
3.12
4590
5453.112ˆ
2
==×−
××−=b
08.0423.15ˆˆ =×−=−= xbya
08.023.1ˆ += xy
10=x 38.1208.01023.1 =+×=y
( )( )
( ) ( )∑ ∑
∑
= =
=
−−
−−
=
n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
r 75.0
xy 5.22ˆ −= x
y 5.2 y 2
y 5.2 y 2
x y
x y
x
y
axby ˆˆˆ +=
x y x yA.(2,4.9) B.(3,8.1) C.(2.5,7) D.(2.5,6.75)
5. 一 位 母 亲 记 录 了 儿 子 3—9 岁 的 身 高 , 数 据 ( 略 ),由 此 建 立 的 身 高 与 年 龄 的 回 归 模 型 为
y=7.19x+73.93,用这个模型预测这个孩子 10 岁时的身高,则正确的叙述是( C )
A.身高一定是 145.83cm B.身高在 145.83cm 以上
C.身高在 145.83cm 左右 D.身高在 145.83cm 以下
6. 在一次实验中,测得(x,y)的四组值分别是 A(1,2)、B(2,3)、C(3,4)D(4,5),则 y 与 x
之间的回归直线方程为( A )
A. B. C. D.
7. 有下列关系:⑴人的年龄与其拥有的财富之间的关系;⑵曲线上的点与该点的坐标之间的关系;⑶苹
果的产量与气候之间的关系;⑷森林中的同一树木,其横截面直径与高度之间的关系;⑸学生与其学
号之间的关系。其中有相关关系的是__________。
答案: ⑴⑶⑷
8. 许多因素都会影响贫穷,教育也许是其中之一,在研究这两个因素的关系时,收集了美国 50 个州的成
年人受过 9 年或更少教育的百分比( )和收入低于官方规定的贫困线的人数占本州人数的百分比( )
的数据,建立的回归直线方程如下: 。斜率的估计等于 说明__________________,
成年人受过 9 年或更少教育的百分比( )和收入低于官方规定的贫困线的人数占本州人数的百分比
( )之间的相关系数__________________(填充“大于 0“或”小于 0“)。
答案: ⑴⑶⑷
9. 若施化肥量 x 与小麦产量 y 之间的回归直线方程为 ,当施化肥量为 50kg 时,预计小麦
产量为__________。
解析:当 时, 。
答案: 。
10. 在某种产品表面进行腐蚀性试验,得到腐蚀深度 y 与腐蚀时间 t 之间对应的一组数据:
时间
t(s) 5 10 15 20 30 40 50 60 70 90 12
0
深度
y(μm) 6 10 10 13 16 17 19 23 25 29 46
(1)画出散点图;
(2)求腐蚀深度 y 对腐蚀时间 t 的回归直线方程.
解:(1)散点图为
(2)经计算可得
b= ≈0.3,
1ˆ += xy 2ˆ += xy 12ˆ += xy 1ˆ −= xy
x y
6.48.0 += xy 8.0
x
y
xy 4250ˆ +=
50=x 450450250ˆ =×+=y
kg450
510
10
1520
20
30
30
40
40
50
50
60 70 90 120
y
t
.13910,5442,36750,45.19,36.46
11
1
11
1
2
11
1
2 ===== ∑∑∑
=== i
ii
i
i
i
i ytytyt
2211
1
2
11
1
36.461136750
45.1936.461113910
11
11
×−
××−=
−
⋅×−
∑
∑
=
=
tt
ytyt
i
i
i
iia= -b =19.45-0.3×46.36≈5.542.
故所求的线性回归方程为 =0.3t+5.542.
y t
^
y