3.1
回归分析的基本思想
及其初步应用
(第一课时)
1
.通过典型案例的探究,进一步了解回归分析的基本思想、方法及其初步应用.
2
.让学生经历数据处理的过程,培养他们对数据的直观感觉,体会统计方法的特点,认识统计方法的应用,通过使用转化后的数据,求相关指数,运用相关指数进行数据分析、处理的方法.
3
.从实际问题中发现已有知识的不足,激发好奇心,求知欲,通过寻求有效的数据处理方法,开拓学生的思路,培养学生的探索精神和转化能力,通过案例的分析使学生了解回归分析在实际生活中的应用,增强数学取之生活,用于生活的意识,提高学习兴趣.
本节课通过必修
3
熟悉有例题回顾线性相关关系知识,通过实际问题中发现已有知识的不足,引出随机误差、残差、残差分析的概念,进而运用残差来进行数据分析,通过例题讲解掌握用残差分析判断线性回归模型的拟合效果。掌握建立回归模型的步骤。
本节内容学生内容不易掌握,通过知识整理与比较引导学生进行区分、理解。通过对典型案例的探究,练习进行巩固了解回归分析的基本思想方法和初步应用.
从某大学中随机选取
8
名女大学生,其身高和体重数据如下表所示:
怎样根据一名女大学生的身高预报她的体重,并预报一名身高为
172 cm
的女大学生的体重?
编号
1
2
3
4
5
6
7
8
身高
/cm
165
165
157
170
175
165
155
170
体重
/kg
48
57
50
54
64
61
43
59
根据必修
3 2.3
变量相关关系解决这个问题的方法:
1.
先判断是两个变量是否具有线性相关关系
(1)
作散点图,如图所示
(
见课本
P82
:图
3.1-1)
2.
根据线性回归的系数公式,求回归直线方程
=
0.849x-85.712
3.
由线性回归方程可以估计其位置值为 =
60.316(
千克
)
左右。
具有较好的线性相关关系
性质:回归直线一定过样本中心点
(2)
计算
相关系数
这些点并不都在同一条直线上,上述直线并不能精确地反映
x
与
y
之间的关系,
y
的值不能完全由
x
确定,它们之间是统计相关关系,
y
的实际值与估计值之间存在着误差.
因此
,
在统计学中设它们的线性回归模型为
:
其中
a,b
为模型的未知参数
,e
为
y
与
bx+a
之间的误差,称它为随机误差,它是随机变量。且
线性回归模型完整表达式为
x
称为
_____
变量
,y
称为
_____
变量
.
解释
预报
线性回归模型中随机误差的主要来源
①线性回归模型中的预报值 与真实情况
y
引起的误差;
②观测与计算
(
用 代替
b a)
产生的误差;
③省略了一些因素的影响
(
如生活习惯等)产生的误差
.
在线性回归模型中,
e
为用
bx+a
的预报真实值
y
的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差?
在实际应用中,我们用 估计
bx+a
所以 的估计量为
对于样本点
它们的随机误差为
估计值为
称相应于点 的残差
坐标纵轴为残差变量,横轴可以有不同的选择;
若模型选择的正确,残差图中的点应该分布在以横轴为中心的带形区域;
对于远离横轴的点,要特别注意。
错误数据
模型问题
身高与体重残差图
异常点
残差的作用
1.
通过残差表或残差图发现原始数据中的可疑数据
通过残差 来判断模型拟合的效果这种分析工作称为
残差分析
通过残差表或残差图判断模型拟合的效果是直观判断,如何精确判断模型拟合的效果?
引入参数
R
2
来精确该画模型拟合效果
对于己获取的样本数据,在上式子中 是定值, 越小,即残差平方和越小,
R
2
越大,说明模型拟合效果越好。
引入例中参数
R
2
计算得约为
0.64
说明女大学生体重差异有百分之六十四是由身高引起的
.
知识点
线性回归分析
1.
对线性回归模型的三点说明
(1)
非确定性关系:线性回归模型
y=
bx+a+e
与确定性函数
y=
bx+a
相比,它表示
y
与
x
之间是统计相关关系
(
非确定性关系
),
其中的随机误差
e
提供了选择模型的准则以及在模型合理的情况下探求最佳估计值
a
,
b
的工具
.
(2)
线性回归方程 中 , 的意义是:以 为基数,
x
每增加
1
个单位,
y
相应地平均增加 个单位
.
(3)
线性回归模型中随机误差的主要来源
①线性回归模型与真实情况引起的误差;
②观测与计算产生的误差;
③省略了一些因素的影响产生的误差
.
2.
线性回归模型的模拟效果
(1)
残差图法
:
观察残差图
,
如果残差点比较均匀地落在水平的带状区域中
,
说明选用的模型比较合适
,
这样的带状区域的宽度越窄
,
说明模型拟合精度越高
,
回归方程的预报精度越高
.
(2)
残差的平方和法
:
一般情况下
,
比较两个模型的残差比较困难
(
某些样本点上一个模型的残差的绝对值比另一个模型的小
,
而另一些样本点的情况则相反
),
故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果
.
残差平方和越小的模型
,
拟合的效果越好
.
(3)R
2
法
:R
2
的值越大
,
说明残差平方和越小
,
也就是说模型拟合的效果越好
.
3.
相关系数与
R
2
(1)R
2
是相关系数的平方
,
其变化范围为
[0,1],
而相关系数的变化范围为
[-1,1].
(2)
相关系数可较好地反映变量的相关性及正相关或负相关
,
而
R
2
反映了回归模型拟合数据的效果
.
(3)
当
|r|
接近于
1
时说明两变量的相关性较强
,
当
|r|
接近于
0
时说明两变量的相关性较弱
,
而当
R
2
接近于
1
时
,
说明线性回归方程的拟合效果较好
.
【
微思考
】
(1)
残差与我们平时说的误差是一回事儿吗
?
提示
:
这两个概念在某程度上具有很大的相似性
,
都是衡量不确定性的指标
,
二者的区别是
:
误差与测量有关
,
误差可以衡量测量的准确性
,
误差越大表示测量越不准确
;
残差与预测有关
,
残差大小可以衡量预测的准确性
,
残差越大表示预测越不准确
.
(2)R
2
与原来学过的相关系数
r
有区别吗
?
提示
:
它们都是刻画两个变量之间的的相关关系的
,
区别是
R
2
表示解释变量对预报变量变化的贡献率
,
其表达式为
R
2
=1- ;
相关系数
r
是检验两个变量相关性的强弱程度
,
其表达式为
建立回归模型的基本步骤
(1)
确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)
画出确定好的解释变量和预报变量的散点图,观察它们之间的关系
(
如是否存在线性关系等
)
.
(3)
由经验确定回归方程的类型
(
如我们观察到数据呈线性关系,则选用线性回归方程
)
.
(4)
按一定规则
(
如最小二乘法
)
估计回归方程中的参数.
(5)
得出结果后分析残差图是否有异常
(
如个别数据对应残差过大,或残差呈现不随机的规律性等
)
.若存在异常,则检查数据是否有误,或模型是否合适等.
为研究重量
x
(
单位:克
)
对弹簧长度
y
(
单位:厘米
)
的影响,对不同重量的
6
个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)
作出散点图并求线性回归方程;
(2)
求出
R
2
;
(3)
进行残差分析.
作残差分析时,一般从以下几个方面予以说明:
(1)
散点图;
(2)
相关指数;
(3)
残差图中的异常点和样本点的带状分布区域的宽窄
.
解答
(1)
散点图如图
0.05
0.005
-
0.08
-
0.045
0.04
0.025
-
2.24
-
1.37
-
0.54
0.41
1.41
2.31
(3)
由残差表中的数值可以看出第
3
个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过
0.15
的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
规律方法
当资料点较少时,也可以利用残差表进行残差分析,注意计算数据要认真细心,残差分析要全面.
1.
判一判
(
正确的打“√”
,
错误的打“
×”)
(1)
残差平方和越小
,
线性回归方程拟合效果越好
.(
)
(2)
在画两个变量的散点图时
,
预报变量在
x
轴上
,
解释变量在
y
轴上
.
(
)
(3)R
2
越接近于
1,
线性回归方程的拟合效果越好
.(
)
√
×
√
2.
做一做
(
请把正确的答案写在横线上
)
(1)
从散点图上看
,
点散布在从左下角到右上角的区域内
,
两个变量的这种相关关系为
.
(2)
在残差分析中
,
残差图的纵坐标为
.
(3)
如果发现散点图中所有的样本点都在一条直线上
,
则残差平方和等于
,
解释变量和预报变量之间的相关系数
R
等于
.
正相关
残差
0
1
或
-1
3.
已知某种商品的价格
x
(
元
)
与需求量
y
(
件
)
之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求
y
对
x
的回归直线方程,并说明回归模型拟合效果的好坏.
0
0.3
-
0.4
-
0.1
0.2
4.6
2.6
-
0.4
-
2.4
-
4.4
再 见
敬请指导
.