§1.1 回归分析的基本思想及其初步(三)
【学情分析】:
教学对象是高二文科学生,学生已经学会建立回归模型的基本步骤,并有检验回归方程的拟合精确度
的方法,并能解决一些实际问题。两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关
系,通过探究使学生体会对回归模型的选择,非线性模型可以通过变换转化为线性回归模型,让学生直观
的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系,并通过回归分析体会不同
模型拟合数据的效果。
【教学目标】:
( 1) 知 识 与 技 能 :
了解回归模型的选择;进一步理解非线性模型通过变换转化为线性回归模型;体会不同模型拟合数据
的效果。
( 2) 过 程 与 方 法 :
从实例出发,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归分析的必要性,通
过学习相关指数,用相关指数来刻画回归的效果,进而归纳出回归分析的一般步骤,并对具体问题进行回
归分析,用于解决实际问题。
( 3) 情 感 态 度 与 价 值 观 :
任何事物都是相对的,但又有一定的规律性,我们只要从实际出发,不断探求事物的内在联系,就会
找出其中的规律性,形成解决实际问题的方法和能力。
【教学重点】:
1、加深体会有些非线性模型通过变换可以转化为线性回归模型;
2、了解在解决问题的过程中寻找更好的模型的方法。
【教学难点】:
1、了解常用函数的图像特点,选择不同的模型建模;
2、通过比较相关指数对不同的模型进行比较。
【课前准备】:
课件
【教学过程设计】:
教学环节 教学活动 设计意图
一、复习引
入
问题一:你能回忆一下建立回归模型的基本步骤?
师:提出问题,引导学生回忆建立回归模型的基本步骤(选变量、画散点
图、选模型、估计参数、分析与预测)
生:回忆、叙述建立回归模型的基本步骤
复习建立线性
回归模型的基本步
骤
二、探究新
知
问题二:观察例 2 的图 1.1-6 中的散点图,红铃虫的产卵数 y 与温度 x
的图像特点:随着自变量的增加,因变量也随之增加。这些点可以除了可
以看作是落在指数函数模型上,还可以认为它是落在什么函数的模型上?
师:引导学生观察散点图的特点,并引导学生探究红铃虫的产卵数 y
与温度 x 还可能是什么关系。(二次函数模型)
生:讨论、回忆一些常见函数图像的特点,判断红铃虫的产卵数 y 与
温度 x 的可能关系
样本点还可以看作是分布在二次函数曲线 的周围。
引导学生根据
散点图判断两个变
量的关系,使学生
了解不是任何两个
变量都一定是只有
一种关系。
2
2
1 cxcy +=问题三:对模型 是否有办法求参数 和 的最小二乘估
计?
师:从简单的模型入手,逐步引导学生思考把原来两个变量的非线性
关系转化为另外两个变量的线性关系
生:观察模型,探究变换的方法并发表自己的意见。最后给出具体的
方法。
令 ,建立 与 之间的线性回归方程
问题四:经过变换后这个模型都转化为线性回归模型,你如何得到这几个
线性回归模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转
化为新变量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算
器)
解答过程如下:
令 , ,即
分析 与 之间的关系,通过画散点图(如下图),
让学生知道有
时因变量与自变量
的非线性关系经过
变换后可以转化为
两个新变量间的线
性关系
使学生进一步
体会把因变量与自
变量的非线性关系
经过变换后转化为
另外两个变量的线
性关系的方法。
使学生熟悉线
性回归模型的参数
估计的方法
得出红铃虫的
产卵数 y 与温度 x
产卵数与温度的关系
0
50
100
150
200
250
300
350
20 22 24 26 28 30 32 34 36
温度
产卵数y/个
变换后样本点的散点图
0
50
100
150
200
250
300
350
400 500 600 700 800 900 1000 1100 1200 1300t=x^2
y
2
2
1 cxcy += 1c 2c
2xt = y t 21 ctcy +=
1cb = 2ca = btay +=
y t可看到 与 的散点图并不分布在一条直线的周围,即不宜用线性回
归方程来拟合它,即不宜用二次曲线 来拟合 与 之间的
关系,这个结论还可以用残差分析得到。
为比较两个不同模型的残差,需建立相应的回归模型,让学生用线性
回归模型拟合回归方程 。
所以
因为 ,即 y 关于 x 的二次回归方程为 。
问题五:指数回归模型与二次回归模型中哪个能更好地刻画红铃虫的产卵
数 y 与温度 x 的关系?通过什么数据说明?
师:提出问题,引导学生回忆评价线性回归模型拟合好坏的标准(相
关指数、残差平方和),进一步引导学生探讨如何进行不同模型的比较,
介绍计算模型相关指导数和残差平方和的方法,说明一般在参数个数一定
的条件下,相关指数越大或残差平方和越小说明模型拟合得越好。
生:讨论,提出自己的想法,计算每个模型的相关指数,并进行模型
的比较。
指数函数模型的相关指数
的模型
引导学生尝试
进行不同模型的比
较。
编号 1 2 3 4 5 6 7 合计
温度x /°C 21 23 25 27 29 32 35 192
产卵数y /个 7 11 21 24 66 115 325 569
t = x 2 441 529 625 729 841 1024 1225 5414
t i
2 194481 279841 390625 531441 707281 1048576 1500625 4652870
t i y i 3087 5819 13125 17496 55506 117760 398125 610918
0.367
773.429 81.286
4652870 610918
-202.543
=t
∑
=
=
n
i
it
1
2 =∑
=
n
i
ii yt
1
=y
=
−
−
=
∑
∑
=
=
2
1
2
1ˆ
znx
zxnzx
b n
i
i
n
i
ii
=−= xbza ˆˆ
编号 1 2 3 4 5 6 7 合计
温度x/°C 21 23 25 27 29 32 35 192
产卵数y/个 7 11 21 24 66 115 325 569
27.429 81.286
6.5 11.2 19.2 33.1 57.1 129.2 292.1 548.374
-74.3 -70.3 -60.3 -57.3 -15.3 33.7 243.7 0
0.5 -0.2 1.8 -9.1 8.9 -14.2 32.9 20.6257
5518.4 4940.1 3634.4 3281.7 233.7 1136.7 59396.7 78141.4
0.27 0.03 3.10 83.70 79.01 200.32 1084.26 1450.68
1450.68 78141.4
y关于x的指数回归方程 =x
( ) =−=∑∑
==
n
i
ii
n
i
i yye
1
2
1
2 ˆˆ ( ) =−∑
=
n
i
i yy
1
2
=y843.3272.0ˆ −= xey
iyˆ
iii yye ˆˆ −=
( )22 ˆˆ iii yye −=
y t
2
2
1 cxcy += y x
btay +=
543.202367.0 −= ty
2xt = 543.202367.0 2 −= xy二次函数模型的相关指数
从相关指数的计算结果来看,指数函数模型的 比二次函数模型的
更接近于 1,所以指数函数模型的回归效果好。
再从残差图看:
从图中可看出指数函数模型的残差点比较均匀地落在水平的带状域
中,所以指数函数模型拟合精度较二次函数模型的高。
通过学生自己动手计算感受,归纳判断模型拟合效果的方法:
⑴可以通过变换后的散点图观察两个新变量之间是否存在线性回归
方程;
⑵通过残差分析比较两种模型的拟合效果。一般情况下,比较两个模
型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型
的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平
方和的大小来判断模型的拟合效果。残差平方和越小的模型,拟合的效
果越好。
三、练习 某种书每册的成本费 y(元)与印刷册数 x(千册)有关,经统计得
到数据如下:
x 1 2 3 5 10 20 30 50 100 200
y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15
( )
( )
98.0
ˆ
1
1
2
1
2
2 =
−
−
−=
∑
∑
=
=
n
i
i
n
i
ii
yy
yy
R
2R
2R检验每册书的成本费 y 与印刷册数倒数 之间是否具有线性相关关
系,如有,求出 y 对 x 的回归方程。
分析:本题是非线性回归分析问题,不妨设变量 ,题意要求对
与 y 作相关性检验,如果它们具有线性相关关系,就可以进一步求出 y
对 的回归直线方程,这时,再回代 ,就得到了 y 对 x 的回归曲线
方程。
解:首先作变量置换 ,题目所给数据变成如下表所示的 10 对
数据:
u 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005
y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15
然后作相关性检验。
经计算得 ,从而认为 与 y 之间具有线性相关关
系,由公式得 , ,所以 ,
最后回代 ,可得到 y 对 x 的回归曲线方程
四、小结 1.强调要借助散点图的直观性、联想已学过的基本函数图像、以及知识
间的联系,鼓励学生在建模中大胆尝试;
2.用回归方程探究非线性回归问题的方法、步骤;
3.残差分析的步骤、作用。
4.梳理本节书的知识结构
让学生整理解
决本例的思路,鼓
励学生探究建立更
好的模型。
练习与测试
1. 在两个变量 与 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 如下,其中拟合效果
x
1
xu 1=
u
u xu 1=
xu 1=
75.09998.0 >=r u
125.1=a 973.8=b uy 973.8125.1ˆ +=
xu 1=
xy 973.8125.1ˆ +=
问题背景分析
线性相关系数散点图
两个变量线性相关 两个变量非线性相关
非线性回归模型线性回归模型
最小二乘法
残差分析
相关指数
应用
y x 2R最好的模型是( A )
A.模型 1 的相关指数 为 B.模型 2 的相关指数 为
C.模型 3 的相关指数 为 D.模型 4 的相关指数 为
2. 已知两个变量的回归模型为 ,则样本点的(1,4.4)的残差是_____________________
答案:0.4
3. 残差平方和用数学符号表示为___________________,它代表了随机误差的效应;解释变量的效应值称
为回归平方和,可以用相关指数 来刻画回归的效果,其计算公式是___________________。显然,
的值越大,说明残差平方和越小,也就是说模型的拟合效果越好。
答案: ; 。
4. 在研究硝酸纳的可溶性程度时,对不同的温度观测它在水中的溶解度,得观测结果如下表所示:
温度( ) 0 10 20 50 70
溶解度( ) 66.7 76.0 85.0 112.3 128.0
则由此得到的回归直线的斜率是____________。
答案:0.8809
5. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其
预测模型,则其相关指数 ________。
答案: , , , ,
, ,
, ,
6. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其
预测模型,则点 C 的残差是________。
答案: , , 。
7. 若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足 yi=bxi+a+ei (i=1、2. …n)若 ei 恒为 0,则 R2
为
答案:1
2R 98.0 2R 80.0
2R 50.0 2R 25.0
xy 22⋅=
2R 2R
( )∑
=
−
n
i
ii yy
1
2ˆ
( )
( )∑
∑
=
=
−
−
−=
n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
ˆ
1
x
y
x y
=2R
xy AB 3ˆ = 7=y 0ˆ1 =y 3ˆ 2 =y 12ˆ3 =y
7ˆ1 −=− yy 4ˆ 2 −=− yy 5ˆ3 =− yy
0ˆ1 =e 0ˆ2 =e 1ˆ3 =e
989.090
112 ≈−=R
x y
xy AB 3ˆ = 12ˆ =Cy 1ˆ =Ce