§3.1 回归分析的基本思想及其初步应用(2)
【学情分析】:
教学对象是高二理科学生,学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实
际问题。在教学中,要结合实例,让学生了解随机误差产生的原因。初步了解可以通过求回归模型的相关
指数或利用残差分析不同的回归模型的拟合精确度。在起点高的班级中通过让学生观察、思考与讨论,进
一步体会回归分析中的数理计算,及运用相关指数与残差分析来刻画模型拟合效果,初步形成运用统计方
法解决实际问题的基本思想,认识统计方法在决策中的作用。
【教学目标】:
( 1) 知 识 与 技 能 : 了解求线形回归方程的两个计算公式的推导过程,、回归平方和;了解随机误差产
生的原因;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性
模型通过变换转化为线性回归模型。
( 2)过 程 与 方 法 : 本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线
方程,从中也找出存在的不足,从而有进行回归分析的必要性,进而学习相关指数,
用相关指数来刻画回归的效果。
( 3)情 感 态 度 与 价 值 观 : 从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,
培养学生不满足于已有知识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
1. 了解判断刻画模型拟合效果的方法——相关指数和残差分析;
2. 通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。
【教学难点】:
1. 了解随机误差产生的原因,用残差平方和衡量回归方程的预报精度;
2. 了解判断刻画模型拟合效果的方法——相关指数和残差分析。
【教学过程设计】:
教学环节 教学活动 设计意图
一、创设情
境
1.由例 1 知,体重的值受身高或随机误差的影响。
2.问题一:身高 172cm 的女大学生的体重一定是 60.316kg 吗?如果不是,
其原因是什么?
引入回归分析
的效果评价的三个
统计量
二、探究新
知
解答问题一:
显然,身高 172cm 的女大学生的体重不一定是 60.316kg,但一般可以
认为她的体重接近于 60.316kg.上图 3.1-2 中的样本点和回归直线的相互
位置说明了这一点.
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身
高和体重的关系可用下面的线性回归模型来表示:
结合实例由结
果分析残差图是否
异常,养成从实际
问题出发,抽象为
数学问题中的线性
回归问题,从而指
导实际问题的解决。
40
45
50
55
60
65
70
150 155 160 165 170 175 180 y=bx+a+e (3)
这里 a 和 b 为模型的未知参数,e 是 y 与 之间的误差。通常 e
为随机变量,称为随机误差,它的均值 E(e)=0,方差 D(e)= .这样
线性回归模型的完整表达式为:
(4)
在线性回归模型(4)中,随机误差 e 的方差 越小,通过回归直线
(5)
预报真实值 y 的精度越高。随机误差是引起预报值 与真实值 y 之间的误
差的原因之一,大小取决于随机误差的方差。
另一方面,由于公式(1)和(2)中 为截距和斜率的估计值,
它们与真实值 a 和 b 之间也存在误差,这种误差是引起预报值 与真实值
y 之间误差的另一个原因。
思考 1、产生随机误差项 e 的原因是什么?
答:实际上,从上例中,一个人的体重值除了受身高的影响外,还受
到许多其它因素的影响。例如饮食习惯、是否喜欢运动、度量误差等。另
外,我们选用的线性模型往往只是一种近似的模型。所有这些因素都会导
致随机误差项 e 的产生。
问题二、在线性回归模型中,e 是用 预报真实值 y 的误差,它是一个不
可观测的量,那么应该怎样研究随机误差?如何衡量预报的精度?
解答问题二:
因为随机误差是随机变量,因此可以通过这个随机变量的数字特征来
刻画它的一些总体特征。均值是反映随机变量取值平均水平的数字特征,
方差是反映随机变量集中于均值程度的数字特征,而随机误差的均值为 0,
因此可以用方差 来衡量随机误差的大小。
为了衡量预报的精度,需要估计 的值。一个自然的想法是通过样
本方差来估计总体方差。如何得到随机变量 e 的样本呢?由于模型(3)或
(4)中的 e 隐含在预报变量 y 中,我们无法精确地把它从 y 中分离出来,
因此也就无法得到随机变量 e 的样本。
解决问题的途径是通过样本的估计值来估计 。根据截距和斜率的
估计公式(1)和(2),可以建立回归方程
学生思考,回答
abxy +=~
02 >σ
==
++=
2)(,0)( σeDeE
eabxy
2σ
abxy +=~
^
y
^^
ba和
^
y
~
y
2σ
2σ
2σ
因此 是(5)中 的估计量。由于随机误差 ,所以
是 e 的估计量,对于样本点
…
而言,相当于它们的随机误差为
,i=1,2, …,n,
其估计值为
,i=1,2, …,n,
称为相应于点 的残差(residual)。类比样本方差估计总体方差
的思想,可以用
(n>2)
作为 的估计量,其中 由公式(1)(2)给出, 称为残差
平方和(residualsumofsquares),可以用 衡量回归方程的预报精度。
通常, 越小,预报精度越高。
学生动手计算出例 1 中的残差(如下表)与残差平方和。
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
yi
54.37
3
54.37
3
47.58
1
58.61
8
62.86
3
54.37
3
45.88
3
58.61
8
ei
-6.37
3 2.627 2.419 -4.61
8 1.137 6.627 -2.88
3 0.382
学习要领:①注意 、 、 的区别;
②当残差平方和越小,此时模型的拟合效果越好;
③ 对 于 多 个 不 同 的 模 型 , 我 们 还 可 以 引 入 相 关 指 数
来刻画回归的效果,它表示解释变
引导学生利用残差
也可以分析所求出
的模型的拟合效果
^^^
axby +=
^
y
~
y
~
yye −= ^^
yye −=
),,(),,( 2211 yxyx ),(, nn yx
abxyyye iiiii −−=−= ~
^^^^
axbyyye iiii −−=−=
ie
^
),( ii yx
),(2
1
2
1 ^^2
1
^2^
baQnen i
n
i −=−= ∑
=
σ
2σ ^^
ba和 ),(
^^
baQ
^
2σ
^
2σ
( ) 361.128ˆ
1
2 =−∑
=
n
i
ii yy
iy iyˆ y
( )
( )∑
∑
=
=
−
−
−=
n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
ˆ
1量对预报变量变化的贡献率. 的值越接近于 1,说明残差
平方和越小,也就是说模型拟合的效果越好,即解释变量和
预报变量的线性相关性越强.
代入例 1 中的数据知例 1 中的 ,表明
“女大学生的身高解释了 64%的体重变化”,或者说“女大学生的体重差
异有 64%是由身高引起的”。即解释变量对总效应约贡献了 64%,而随机
误差贡献了剩余的 36%,所以身高对体重的效应比随机误差的效应大得多。
用身高预报体重时,需要注意下列问题:
1. 回归方程只适用于我们研究的样本的总体。
2. 我们所建立的回归方程一般都有时间性。
3. 样本取值的范围会影响回归方程的适用范围。
4. 不能期望回归方程得到的预报值就是预报变量的精确值。
一般地,建立回归模型的基本步骤为:
(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2) 画出确定好的解释变量和预报变量的散点图,观察它们之间的关
系(如是否存在线性关系等);
(3) 由经验确定回归方程的类型(如我们观察到数据呈线性关系,则
选用线性回归方程 y=bx+a);
(4) 按一定规则估计回归方程中的参数(如最小二乘法);
(5) 得出结果后分析残差图是否有异常(个别数据对应残差过大,或
残差呈现不随机的规律性等等),若存在异常,则检查数据是否有
误,或模型是否合适等。
问题三:观察图 3.1-3 中的残差图,样本点是如何分布?有无异常情况
(个别数据对应残差过大,或残差呈现不随机的规律性等等)?
师:提出问题,指导学生画出残差图(以残差为纵坐标,样本编号或
身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检查
数据是否有误,或模型是否合适等。
生:分析、讨论。
从残差图中可以看到第 1 个样本点和第 6 个样本点的残差较大,需要
确认是否出现采集的错误,指导学生去掉这两个数据后重新再计算回归方
程与相关指数 ,了解到拟合的效果会更好。
通过学生动手计算
感受相关指数
与残差分析说明回
归方程的预报情况。
残差图
-8
-6
-4
-2
0
2
4
6
8
0 1 2 3 4 5 6 7 8 9
编号
残差
ei
2R
( )
( )
64.0
ˆ
1
1
2
1
2
2 =
−
−
−=
∑
∑
=
=
n
i
i
n
i
ii
yy
yy
R
2R
2R引导学生归纳残差所能说明的情况:
① 样本点的残差比较大,确认采集数据时是否出现人为的错误或
其他原因;
② 残差点比较均匀地落在水平的带状区域中,说明选用的模型比
较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程
的预报精度越高。
三、例题选
讲
例 2:一只红铃虫的产卵数 y 和温度 x 有关,现收集了 7 组观测数据列于
下表中,试建立 y 与 x 之间的回归方程。
编号 1 2 3 4 5 6 7
温度 x/°C 21 23 25 27 29 32 35
产卵数 y/
个 7 11 21 24 66 115 325
问题四:例 2 中如何选择解释变量与预报变量?
师:读例 2 的要求,引导学生理解例题含义。
生:思考、讨论、叙述自己的理解。
形成把温度 x 作自变量,红铃虫的产卵数 y 作因变量的共识
问题四:观察图 3.1-4 中的散点图,红铃虫的产卵数 y 与温度 x 具有线
性关系吗?除线性关系外,还学过哪些常见的函数关系?
师:绘制散点图 3.1-4,引导学生观察散点图的特点:随着自变量的
增加,因变量也随之增加。
引导学生探究红铃虫的产卵数 y 与温度 x 更可能是什么关系,选择几
个模型,比如线性回归模型、二次函数模型、指数函数模型。而二次与指
数函数模型是属于非线性回归模型。
生:讨论、回忆一些常见函数图象的特点,判断红铃虫的产卵数 y 与
温度 x 的可能关系
从散点图中可以看到样本点分布在指数函数曲线 的周围。
问题五:请学生思考能否把模型 经过变换后转化为另外两个变
量的线性关系?
师:提出问题,引导学生寻找变换的方法,在学生讨论后给出具体的
方法。
生:思考、讨论、解释。
解答过程如下:
引导学生分析
哪个变量作自变量,
哪个变量作因变量
引导学生根据散点
图判断两个变量的
关系,使学生了解
不是任何两个变量
都一定是线性关系。
使学生进一步
体会把因变量与自
产卵数与温度的关系
0
50
100
150
200
250
300
350
20 22 24 26 28 30 32 34 36
温度
产卵数y/个
xcecy 2
1=
xcecy 2
1=对 两边取自然对数
令 ,建立 与 之间的线性回归方程
问 题 六 : 经 过 变 换 后 指 数 函 数 模 型 转 化 为 线 性 回 归 模 型
,你如何得到这个线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转
化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算
器)
解答过程如下:
令 , ,即
分析 与 之间的关系,通过画散点图(如下图),可知 与 之间
是存在着线性回归关系,可以用最小二乘法求出线性回归方程
列表计算出各个量
编号 1 2 3 4 5 6 7 合计
温度
x/°C 21 23 25 27 29 32 35 192
产卵数 y/
个 7 11 21 24 66 115 325 569
z=ln y 1.94
6
2.39
8
3.04
5
3.17
8
4.19
0
4.74
5
5.78
4
25.2
85
xi2 441 529 625 729 841 1024 1225 5414
xizi 40.9 55.2 76.1 85.8 121.
5
151.
8
202.
4
733.
7
27.429 3.612
变量的非线性关系
经过变换后转化为
另外两个变量的线
性关系的方法。
使学生熟悉线
性回归模型的参数
估计的方法
得出红铃虫的
产卵数 y 与温度 x
的模型
xcecy 2
1=
( )
xecc
excc
ec
ecy
xc
xc
⋅+=
+=
+=
=
lnln
lnln
lnln
lnln
21
21
1
1
2
2
yz ln= z x xccz 21ln +=
xcecy 2
1=
xccz 21ln +=
1lnca = 2cb = bxaz +=
x z x z
bxaz +=
=x =z 5414 733.71
问题七:我们的目标是建立红铃虫的产卵数 y 与温度 x 的模型,如何使得
到的线性回归模型再变回红铃虫的产卵数 y 与温度 x 的模型?
师:提出问题。
生:进行变换,每组得到红铃虫的产卵数 y 与温度 x 的模型。
因为 ,所以 ,即 。
四、练习 1. 试对下列非线性模型进行适当的变形,使之线性化
⑴ ; ⑵
解:⑴对 两边取自然对数,即
令 ,则有
⑵令 ,则有
巩固知识
五、小结 1. 初步了解用残差平方和如何评价模型拟合效果的好坏;
2. 注意回归方程适用的范围、时间。
3. 归纳非线性回归模型的求解步骤:
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶非线性相关模型要进行变换,转为线性回归模型;
⑷求出回归模型的方程(利用最小二乘法)。
反思归纳
练习与测试
1. 下面 4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( A )
A. B.
∑
=
=
n
i
ix
1
2 ∑
=
=
n
i
yi yx
1
272.043.2775414
61.343.2777.733ˆ
2
2
1
2
1 =×−
××−=
−
−
=
∑
∑
=
=
xnx
zxnzx
b n
i
i
n
i
ii
843.3ˆˆ −=⋅−= xbza
843.3272.0ˆ −= xz
yz ln= 843.3272.0ˆln −= xy 843.3272.0ˆ −= xey
axey = bx
ay +=
axey = eaxyey ax lnlnlnln =⇒=
yz ln= axz =
xt 1= baty +=C. D.
2. 将非线性模型 进行适当变形使之线性化。
答案:
3. 已知回归方程 ,则样本点 P(4,2.71)的残差为________________。
答案:
4. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其预
测模型,则点 C 的残差是________。
答案: , , 。
5. 若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足 yi=bxi+a+ei (i=1、2. …n)若 ei 恒为 0,
则 R2 为
答案:1
6. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其预
测模型,则其相关指数 ________。
答案: , , , ,
, ,
, ,
7. 现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。其中体重和身
高分别以磅和英寸为单位,已知 1 英寸≈2.5 cm,1 磅≈0.45 kg,则该回归方程应该是
______________。
答案:体重预测值=0.72(kg/ cm)×身高-58.5(kg)
xey 32=
2ln32lnln3ln +=⇒+= xzexy
35.0log21.1ˆ 2 −= xy
( ) 56.015.271.235.04log2.171.2ˆˆ 2 =−=−−=−= yye
x y
xy AB 3ˆ = 12ˆ =Cy 1ˆ =Ce
x y
=2R
xy AB 3ˆ = 7=y 0ˆ1 =y 3ˆ 2 =y 12ˆ3 =y
7ˆ1 −=− yy 4ˆ 2 −=− yy 5ˆ3 =− yy
0ˆ1 =e 0ˆ2 =e 1ˆ3 =e
989.090
112 ≈−=R