§1.1 回归分析的基本思想及其初步(二)
【学情分析】:
教学对象是高二文科学生,学生已掌握建立线性回归模型的知识,并能用所学知识解决一些简单的实
际问题。在教学中,要结合实例让学生了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回
归平方和。初步了解可以通过求回归模型的相关指数或利用残差分析不同的回归模型的拟合精确度。在起
点低的班级中注重让学生参与实践,鼓励学生通过收集数据,经历数据处理的过程,从而进一步体会回归
分析中的数理计算,初步形成运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。让
学生直观的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系。
【教学目标】:
( 1) 知 识 与 技 能 :
了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和;了解偏差平方和分解
的思想;了解判断刻画模型拟合效果的方法——相关指数和残差分析;了解非线性模型通过变换转化为线
性回归模型。
( 2) 过 程 与 方 法 :
本节内容先从大学中女大学生的甚高和体重之间的关系入手,求出相应的回归直线方程,从中也找出
存在的不足,从而有进行回归分析的必要性,进而学习相关指数,用相关指数来刻画回归的效果。
( 3) 情 感 态 度 与 价 值 观 :
从实际问题中发现自己已有知识的不足之处,激发学生的好奇心和求知欲,培养学生不满足于已有知
识,勇于求知的良好个性品质,引导学生积极进取。
【教学重点】:
1、了解判断刻画模型拟合效果的方法——相关指数和残差分析;
2、通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型。
【教学难点】:
1、 解释残差变量的含义;
2、了解偏差平方和分解的思想。
【课前准备】:
课件
【教学过程设计】:
教学环节 教学活动 设计意图
一、创设情
境
1.由例 1 知,预报变量(体重)的值受解释变量(身高)或随机误差的
影响。
2.问题一:为了刻画预报变量(体重)的变化在多大程度上与解释变量
(身高)有关?在多大程度上与随机误差有关?
我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、
回归平方和。
引入回归分析
的效果评价的三个
统计量
二、探究新
知
⑴总偏差平方和:每个效应(观测值减去总的平均值)的平方加起来,即
用 表示总的效应;
学生动手计算出例 1 中的总偏差平方和。
⑵残差平方和:数据点和它在回归直线上相应的位置的差异 是
结合实例由结
果分析残差图是否
异常,养成从实际
问题出发,抽象为
数学问题中的线性
回归问题,从而指
导实际问题的解决。
( )∑
=
−
n
i
i yy
1
2
( )∑
=
=−
n
i
i yy
1
2 354
( )ii yy ˆ−随机误差的效应,称 为残差, 为残差平方和;
学生动手计算出例 1 中的残差(如下表)与残差平方和。
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
yi 54.373 54.373 47.581 58.618 62.863 54.373 45.883 58.618
ei -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
⑶回归平方和:解释变量和随机误差的总效应(总偏差平方和),即总的
偏差平方和=回归平方和+残差平方和,所以
回归平方和=总的偏差平方和-残差平方和
学生动手计算出例 1 中的回归平方和。
学习要领:①注意 、 、 的区别;
②预报变量的变化程度可以分解为由解释变量引起的变化程
度与残差变量的变化程度之和;
③当总偏差平方和相对固定时,残差平方和越小,则回归平方
和越大,此时模型的拟合效果越好;
④ 对 于 多 个 不 同 的 模 型 , 我 们 还 可 以 引 入 相 关 指 数
来刻画回归的效果,它表示解释变
量对预报变量变化的贡献率. 的值越接近于 1,说明残差
平方和越小,也就是说模型拟合的效果越好,即解释变量和
预报变量的线相关性越强.
代入例 1 中的数据知例 1 中的 ,即解
释变量对总效应约贡献了 64%,而随机误差贡献了剩余的 36%,所以身
高对体重的效应比随机误差的效应大得多。
问题二:观察图 1.1-5 中的残差图,样本点是如何分布?有无异常情况
(个别数据对应残差过大,或残差呈现不随机的规律性等等)?
师:提出问题,指导学生画出残差图(以残差为纵坐标,样本编号
或身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检
查数据是否有误,或模型是否合适等。
引导学生利用
残差也可以分析所
求出的模型的拟合
效果
iii yye ˆˆ −= ( )∑
=
−
n
i
ii yy
1
2ˆ
( ) 361.128ˆ
1
2 =−∑
=
n
i
ii yy
639.225361.128354 =−
iy iyˆ y
( )
( )∑
∑
=
=
−
−
−=
n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
ˆ
1
2R
( )
( )
64.0
ˆ
1
1
2
1
2
2 ≈
−
−
−=
∑
∑
=
=
n
i
i
n
i
ii
yy
yy
R生:分析、讨论。
从残差图中可以看到第 1 个样本点和第 6 个样本点的残差较大,需
要确认是否出现采集的错误,指导学生去掉这两个数据后重新再计算回归
方程与相关指数 ,了解到拟合的效果会更好。
引导学生归纳残差所能说明的情况:
① 样本点的残差比较大,确认采集数据时是否出现人为的错误
或其他原因;
② 残差点比较均匀地落在水平的带状区域中,说明选用的模型
比较合适,带状区域的宽度越窄,模型拟合精度越高,回归
方程的预报精度越高。
通过学生动手
计算感受相关指数
与 残 差 分 析 说
明回归方程的预报
情况。
三、例题选
讲
例 2:一只红铃虫的产卵数 y 和温度 x 有关,现收集了 7 组观测数据列于
下表中,试建立 y 与 x 之间的回归方程。
编号 1 2 3 4 5 6 7
温度 x/°C 21 23 25 27 29 32 35
产卵数 y/个 7 11 21 24 66 115 325
问题三:例 2 中如何选择解释变量与预报变量?
师:读例 2 的要求,引导学生理解例题含义。
生:思考、讨论、叙述自己的理解。
形成把温度 x 作自变量,红铃虫的产卵数 y 作因变量的共识
问题四:观察图 1.1-6 中的散点图,红铃虫的产卵数 y 与温度 x 具有线
性关系吗?除线性关系外,还学过哪些常见的函数关系?
师:绘制散点图 1.1-6,引导学生观察散点图的特点:随着自变量
的增加,因变量也随之增加。
引导学生探究红铃虫的产卵数 y 与温度 x 更可能是什么关系,选择几
个模型,比如线性回归模型、二次函数模型、指数函数模型。而二次与指
数函数模型是属于非线性回归模型。
引导学生分析
哪个变量作自变量,
哪个变量作因变量
引导学生根据
散点图判断两个变
量的关系,使学生
了解不是任何两个
变量都一定是线性
关系。
残差图
-8
-6
-4
-2
0
2
4
6
8
0 1 2 3 4 5 6 7 8 9
编号
残差
ei
2R
2R生:讨论、回忆一些常见函数图象的特点,判断红铃虫的产卵数 y 与
温度 x 的可能关系
从散点图中可以看到样本点分布在指数函数曲线 的周围。
问题五:请学生思考能否把模型 经过变换后转化为另外两个变
量的线性关系?
师:提出问题,引导学生寻找变换的方法,在学生讨论后给出具体的
方法。
生:思考、讨论、解释。
解答过程如下:
对 两边取自然对数
令 ,建立 与 之间的线性回归方程
问题六: 经过变换后指数 函数模型 转 化为线性回归模 型
,你如何得到这个线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转
化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算
器)
解答过程如下:
令 , ,即
分析 与 之间的关系,通过画散点图(如下图),可知 与 之间
是存在着线性回归关系,可以用最小二乘法求出线性回归方程
使学生进一步
体会把因变量与自
变量的非线性关系
经过变换后转化为
另外两个变量的线
性关系的方法。
使学生熟悉线
性回归模型的参数
估计的方法
产卵数与温度的关系
0
50
100
150
200
250
300
350
20 22 24 26 28 30 32 34 36
温度
产卵数y/个
xcecy 2
1=
xcecy 2
1=
xcecy 2
1=
( )
xecc
excc
ec
ecy
xc
xc
⋅+=
+=
+=
=
lnln
lnln
lnln
lnln
21
21
1
1
2
2
yz ln= z x xccz 21ln +=
xcecy 2
1=
xccz 21ln +=
1lnca = 2cb = bxaz +=
x z x z
bxaz +=列表计算出各个量
编号 1 2 3 4 5 6 7 合计
温度 x/°C 21 23 25 27 29 32 35 192
产卵数 y/个 7 11 21 24 66 115 325 569
z=ln y 1.946 2.398 3.045 3.178 4.190 4.745 5.784 25.285
xi2 441 529 625 729 841 1024 1225 5414
xizi 40.9 55.2 76.1 85.8 121.5 151.8 202.4 733.7
27.429 3.612
5414 733.71
问题七:我们的目标是建立红铃虫的产卵数 y 与温度 x 的模型,如何使得
到的线性回归模型再变回红铃虫的产卵数 y 与温度 x 的模型?
师:提出问题。
生:进行变换,每组得到红铃虫的产卵数 y 与温度 x 的模型。
因为 ,所以 ,即 。
得出红铃虫的
产卵数 y 与温度 x
的模型
四、练习 1. 试对下列非线性模型进行适当的变形,使之线性化
⑴ ; ⑵
解:⑴对 两边取自然对数,即
令 ,则有
巩固知识
=x =z
∑
=
=
n
i
ix
1
2 ∑
=
=
n
i
yi yx
1
272.043.2775414
61.343.2777.733ˆ
2
2
1
2
1 =×−
××−=
−
−
=
∑
∑
=
=
xnx
zxnzx
b n
i
i
n
i
ii
843.3ˆˆ −=⋅−= xbza
843.3272.0ˆ −= xz
yz ln= 843.3272.0ˆln −= xy 843.3272.0ˆ −= xey
axey = bx
ay +=
axey = eaxyey ax lnlnlnln =⇒=
yz ln= axz =⑵令 ,则有
五、小结 1. 分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价模
型拟合效果的好坏;
2. 注意回归方程适用的范围、时间。
3. 归纳非线性回归模型的求解步骤:
⑴画出两个变量的散点图;
⑵判断是否线性相关;
⑶非线性相关模型要进行变换,转为线性回归模型;
⑷求出回归模型的方程(利用最小二乘法)。
练习与测试
1. 下面 4 个散点图中,不适合用线性回归模型拟合其中两个变量的是( A )
A. B.
C. D.
2. 将非线性模型 进行适当变形使之线性化。
答案:
3. 已知回归方程 ,则样本点 P(4,2.71)的残差为________________。
答案:
4. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其
预测模型,则点 C 的残差是________。
答案: , , 。
5. 若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足 yi=bxi+a+ei (i=1、2. …n)若 ei 恒为 0,则 R2
为
答案:1
6. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其
xt 1= baty +=
xey 32=
2ln32lnln3ln +=⇒+= xzexy
35.0log21.1ˆ 2 −= xy
( ) 56.015.271.235.04log2.171.2ˆˆ 2 =−=−−=−= yye
x y
xy AB 3ˆ = 12ˆ =Cy 1ˆ =Ce
x y预测模型,则其相关指数 ________。
答案: , , , ,
, ,
, ,
7. 现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。其中体重和身
高分别以磅和英寸为单位,已知 1 英寸≈2.5 cm,1 磅≈0.45 kg,则该回归方程应该是
______________。
答案:体重预测值=0.72(kg/ cm)×身高-58.5(kg)
=2R
xy AB 3ˆ = 7=y 0ˆ1 =y 3ˆ 2 =y 12ˆ3 =y
7ˆ1 −=− yy 4ˆ 2 −=− yy 5ˆ3 =− yy
0ˆ1 =e 0ˆ2 =e 1ˆ3 =e
989.090
112 ≈−=R