§3.1 回归分析的基本思想及其初步(3)
【学情分析】:
教学对象是高二理科学生,学生已经学会建立回归模型的基本步骤,并有检验回归方程的拟合精确度
的方法,并能解决一些实际问题。两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关
系,通过探究使学生体会对回归模型的选择,非线性模型可以通过变换转化为线性回归模型,让学生直观
的观察、思考,借助于线性回归模型研究呈非线性关系的两个变量之间的关系,并通过回归分析体会不同
模型拟合数据的效果。
【教学目标】:
( 1)知 识 与 技 能 : 了解回归模型的选择;进一步理解非线性模型通过变换转化为线性回归模型;体会
不同模型拟合数据的效果。
( 2)过 程 与 方 法 : 从实例出发,求出相应的回归直线方程,从中也找出存在的不足,从而有进行回归
分析的必要性,通过学习相关指数,用相关指数来刻画回归的效果,进而归纳出回归
分析的一般步骤,并对具体问题进行回归分析,用于解决实际问题。
( 3) 情 感 态 度 与 价 值 观 : 任何事物都是相对的,但又有一定的规律性,我们只要从实际出发,不断
探求事物的内在联系,就会找出其中的规律性,形成解决实际问题的方法和
能力。
【教学重点】:
1. 加深体会有些非线性模型通过变换可以转化为线性回归模型;
2. 了解在解决问题的过程中寻找更好的模型的方法。
【教学难点】:
1. 了解常用函数的图像特点,选择不同的模型建模;
2. 通过比较相关指数对不同的模型进行比较。
【教学过程设计】:
教学环
节
教学活动 设计意图
一 、 复
习引入
问题一:你能回忆一下建立回归模型的基本步骤?
师:提出问题,引导学生回忆建立回归模型的基本步骤(选变量、画散点图、选模
型、估计参数、分析与预测)
生:回忆、叙述建立回归模型的基本步骤
复 习 建
立线性回归
模型的基本
步骤
二 、 探
究新知
问题二:观察例 2 的图 1.1-6 中的散点图,红铃虫的产卵数 y 与温度 x 的图像特
点:随着自变量的增加,因变量也随之增加。这些点可以除了可以看作是落在指数
函数模型上,还可以认为它是落在什么函数的模型上?
师:引导学生观察散点图的特点,并引导学生探究红铃虫的产卵数 y 与温度 x
还可能是什么关系。(二次函数模型)
生:讨论、回忆一些常见函数图像的特点,判断红铃虫的产卵数 y 与温度 x 的
可能关系
样本点还可以看作是分布在二次函数曲线 的周围。
引 导 学
生根据散点
图判断两个
变量的关系,
使学生了解
不是任何两
个变量都一
定是只有一
种关系。2
2
1 cxcy +=问题三:对模型 是否有办法求参数 和 的最小二乘估计?
师:从简单的模型入手,逐步引导学生思考把原来两个变量的非线性关系转化
为另外两个变量的线性关系
生:观察模型,探究变换的方法并发表自己的意见。最后给出具体的方法。
令 ,建立 与 之间的线性回归方程
问题四:经过变换后这个模型都转化为线性回归模型,你如何得到这几个线性回归
模型的参数估计?
师:提出问题,引导学生分组讨论,启发学生把原变量的观测数据转化为新变
量的数据,然后让学生给出每种线性回归模型的参数估计。
生:以组为单位进行数据变换,求参数的最小二乘估计(可以用计算器)
解答过程如下:
令 , ,即
分析 与 之间的关系,通过画散点图(如下图),
可看到 与 的散点图并不分布在一条直线的周围,即不宜用线性回归方程来
拟合它,即不宜用二次曲线 来拟合 与 之间的关系,这个结论还可
让 学 生
知道有时因
变量与自变
量的非线性
关系经过变
换后可以转
化为两个新
变量间的线
性关系
使 学 生
进一步体会
把因变量与
自变量的非
线性关系经
过变换后转
化为另外两
个变量的线
性关系的方
法。
使 学 生
熟悉线性回
产卵数与温度的关系
0
50
100
150
200
250
300
350
20 22 24 26 28 30 32 34 36
温度
产卵数y/个
变换后样本点的散点图
0
50
100
150
200
250
300
350
400 500 600 700 800 900 1000 1100 1200 1300t=x^2
y
2
2
1 cxcy += 1c 2c
2xt = y t 21 ctcy +=
1cb = 2ca = btay +=
y t
y t
2
2
1 cxcy += y x以用残差分析得到。
为比较两个不同模型的残差,需建立相应的回归模型,让学生用线性回归模型
拟合回归方程 。
所以
因为 ,即 y 关于 x 的二次回归方程为 。
问题五:指数回归模型与二次回归模型中哪个能更好地刻画红铃虫的产卵数 y 与温
度 x 的关系?通过什么数据说明?
师:提出问题,引导学生回忆评价线性回归模型拟合好坏的标准(相关指数、
残差平方和),进一步引导学生探讨如何进行不同模型的比较,介绍计算模型相关
指导数和残差平方和的方法,说明一般在参数个数一定的条件下,相关指数越大或
残差平方和越小说明模型拟合得越好。
生:讨论,提出自己的想法,计算每个模型的相关指数,并进行模型的比较。
指数函数模型的相关指数
二次函数模型的相关指数
归模型的参
数估计的方
法
得 出 红
铃虫的产卵
数 y 与温度
x 的模型
引 导 学
生尝试进行
不同模型的
比较。
编号 1 2 3 4 5 6 7 合计
温度x /°C 21 23 25 27 29 32 35 192
产卵数y /个 7 11 21 24 66 115 325 569
t = x 2 441 529 625 729 841 1024 1225 5414
t i
2 194481 279841 390625 531441 707281 1048576 1500625 4652870
t i y i 3087 5819 13125 17496 55506 117760 398125 610918
0.367
773.429 81.286
4652870 610918
-202.543
=t
∑
=
=
n
i
it
1
2 =∑
=
n
i
ii yt
1
=y
=
−
−
=
∑
∑
=
=
2
1
2
1ˆ
znx
zxnzx
b n
i
i
n
i
ii
=−= xbza ˆˆ
编号 1 2 3 4 5 6 7 合计
温度x/°C 21 23 25 27 29 32 35 192
产卵数y/个 7 11 21 24 66 115 325 569
27.429 81.286
6.5 11.2 19.2 33.1 57.1 129.2 292.1 548.374
-74.3 -70.3 -60.3 -57.3 -15.3 33.7 243.7 0
0.5 -0.2 1.8 -9.1 8.9 -14.2 32.9 20.6257
5518.4 4940.1 3634.4 3281.7 233.7 1136.7 59396.7 78141.4
0.27 0.03 3.10 83.70 79.01 200.32 1084.26 1450.68
1450.68 78141.4
y关于x的指数回归方程 =x
( ) =−=∑∑
==
n
i
ii
n
i
i yye
1
2
1
2 ˆˆ ( ) =−∑
=
n
i
i yy
1
2
=y843.3272.0ˆ −= xey
iyˆ
iii yye ˆˆ −=
( )22 ˆˆ iii yye −=
btay +=
543.202367.0 −= ty
2xt = 543.202367.0 2 −= xy
( )
( )
98.0
ˆ
1
1
2
1
2
2 =
−
−
−=
∑
∑
=
=
n
i
i
n
i
ii
yy
yy
R从相关指数的计算结果来看,指数函数模型的 比二次函数模型的 更接近
于 1,所以指数函数模型的回归效果好。
再从残差图看:
从图中可看出指数函数模型的残差点比较均匀地落在水平的带状域中,所以指
数函数模型拟合精度较二次函数模型的高。
通过学生自己动手计算感受,归纳判断模型拟合效果的方法:
⑴可以通过变换后的散点图观察两个新变量之间是否存在线性回归方程;
⑵通过残差分析比较两种模型的拟合效果。一般情况下,比较两个模型的残差
比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样
本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟
合效果。残差平方和越小的模型,拟合的效果越好。
三 、 练
习
某种书每册的成本费 y(元)与印刷册数 x(千册)有关,经统计得到数据如
下:
x 1 2 3 5 10 20 30 50 100 200
y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15
检验每册书的成本费 y 与印刷册数倒数 之间是否具有线性相关关系,如有,
求出 y 对 x 的回归方程。
分析:本题是非线性回归分析问题,不妨设变量 ,题意要求对 与 y 作
相关性检验,如果它们具有线性相关关系,就可以进一步求出 y 对 的回归直线方
程,这时,再回代 ,就得到了 y 对 x 的回归曲线方程。
2R 2R
x
1
xu 1= u
u
xu 1=解:首先作变量置换 ,题目所给数据变成如下表所示的 10 对数据:
u 1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005
y 10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15
然后作相关性检验。
经计算得 ,从而认为 与 y 之间具有线性相关关系,由公式
得 , ,所以 ,
最后回代 ,可得到 y 对 x 的回归曲线方程
四 、 拓
展 与 提
高
思考题:如果两个变量是线性关系时利用最小二乘法得到了两个参数的估计公式,
例 2 中当模型不是线性回归模型时如何估计模型中的参数?
教师提出问题,并指出:最小二乘法的思想同样适用于非线性模型,但不能给
出统一的公式,多数情况下用数值计算的方法。
生:探究非线性回归模型的最小二乘法,与前述两种模型进行比较,判断模型
的拟合效果。
使 学 生
了解非线性
回归模型也
有最小二乘
估计,但不
能给出统一
的公式,多
数情况下用
数值计算的
方法。
五 、 小
结
1.强调要借助散点图的直观性、联想已学过的基本函数图像、以及知识间的联系,
鼓励学生在建模中大胆尝试;
2.用回归方程探究非线性回归问题的方法、步骤;
3.残差分析的步骤、作用。
4.梳理本节书的知识结构
让 学 生
整理解决本
例的思路,
鼓励学生探
究建立更好
的模型。
练习与测试
1. 在两个变量 与 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 如下,其中拟合效果
最好的模型是( A )
xu 1=
75.09998.0 >=r u
125.1=a 973.8=b uy 973.8125.1ˆ +=
xu 1=
xy 973.8125.1ˆ +=
问题背景分析
线性相关系数散点图
两个变量线性相关 两个变量非线性相关
非线性回归模型线性回归模型
最小二乘法
残差分析
相关指数
应用
y x 2RA.模型 1 的相关指数 为 B.模型 2 的相关指数 为
C.模型 3 的相关指数 为 D.模型 4 的相关指数 为
2. 已知两个变量的回归模型为 ,则样本点的(1,4.4)的残差是_____________________
答案:0.4
3. 残差平方和用数学符号表示为___________________,它代表了随机误差的效应;解释变量的效应值称
为回归平方和,可以用相关指数 来刻画回归的效果,其计算公式是___________________。显然,
的值越大,说明残差平方和越小,也就是说模型的拟合效果越好。
答案: ; 。
4. 在研究硝酸纳的可溶性程度时,对不同的温度观测它在水中的溶解度,得观测结果如下表所示:
温度( ) 0 10 20 50 70
溶解度( ) 66.7 76.0 85.0 112.3 128.0
则由此得到的回归直线的斜率是____________。
答案:0.8809
5. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其预
测模型,则其相关指数 ________。
答案: , , , ,
, ,
, ,
6. 已知线性相关的两变量 , 的三个样本点 A(0,0),B(1,3),C(4,11),若用直线 AB 作为其预
测模型,则点 C 的残差是________。
答案: , , 。
7. 若一组观测值(x1,y1)、(x2,y2)、…、(xn,yn)之间满足 yi=bxi+a+ei (i=1、2. …n)若 ei 恒为 0,
则 R2 为
答案: 1
2R 98.0 2R 80.0
2R 50.0 2R 25.0
xy 22⋅=
2R 2R
( )∑
=
−
n
i
ii yy
1
2ˆ
( )
( )∑
∑
=
=
−
−
−=
n
i
i
n
i
ii
yy
yy
R
1
2
1
2
2
ˆ
1
x
y
x y
=2R
xy AB 3ˆ = 7=y 0ˆ1 =y 3ˆ 2 =y 12ˆ3 =y
7ˆ1 −=− yy 4ˆ 2 −=− yy 5ˆ3 =− yy
0ˆ1 =e 0ˆ2 =e 1ˆ3 =e
989.090
112 ≈−=R
x y
xy AB 3ˆ = 12ˆ =Cy 1ˆ =Ce