第一章 统计案例
1.1 回归分析的基本思想及
其初步应用
【自主预习】
1.回归分析
(1)概念:回归分析是对具有相关关系的两个量进行
计分析的一种常用方法.
(2)步骤:画_______→求_________→用回归方程进行
_____. 散点图 回归方程
预报
2.线性回归模型
(1)在线性回归方程 = + x中, =____________
=___________, =______,其中 =_______,
=_______, ( , )称为量_____________,回归
直线过本点的中心. 本点的中心
(2)线性回归模型y=bx+a+e,其中e称为_________,
自量x称为_____量,因量y称为_____量.
随机误差
解释 预报
3.刻画回归效果的方式
残差
把随机误差的估计值 称为相应于点(xi,yi)
的残差
残差
图
作图时纵坐标为_____,横坐标可以选为_____
_____,或_________,或___________等,这
作出的图形称为残差图
残差 本
编号 身高数据 体重估计值
残差
图法
残差点比较均匀地落在水平的带状区域中,
说明选用的模型比较合适,这的带状区域
的宽度_____,说明模型合精度越高
残差
平方
和
残差平方和为___________,残差平方和
_____,模型合效果越好
越窄
越小
相关
指数
R2
R2=1-_________,R2表示_____量对_____
量化的贡献率,R2越接近于1,表示回归
的效果越好
解释 预报
【即时小测】
1.对于两个量x,y,若当x取一定值时,y的取值
具有一定的随机性,x,y之的这种非确定性关系
叫做( )
A.函数关系 B.线性相关
C.相关关系 D.回归分析
【解析】选C.根据相关关系的定义知选C.
2.散点图在回归分析过程中的作用是( )
A.计个体个数
B.比较个体数据的大小
C.研究个体分
D.粗略判断量是否线性相关
【解析】选D.根据散点图的意义及作用知选D.
3.在建立两个量y与x的回归模型中,分别选择了4个
不同的模型,它们的相关指数R2如下,其中合效果
最好的模型是( )
A.模型1的相关指数R2=0.98
B.模型2的相关指数R2=0.80
C.模型3的相关指数R2=0.50
D.模型4的相关指数R2=0.25
【解析】选A.因为回归模型的相关指数R2的值越大,
拟合效果越好.
4.已知回归方程 =2x+1,而试验得到一组数据是(2,
4.9),(3,7.1),(4,9.1),则残差平方和等于
________.
【解析】(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.
答案:0.03
【知识探究】
探究点1 线性回归分析
1.相关关系是确定性关系吗?
提示:相关关系是一种不确定性的关系.
2.具有线性相关关系的两个量,其散点图具有什么
特征?
提示:散点图中的点大部分分布在一个带形区域内.即
分布在某条直线的附近.
【归纳结】
对回归分析的三点说明
(1)回归分析的前提是两个量之具有相关关系.
(2)对两个量之数量化进行一般关系的测定,确
定一个相应的数学表达式,即线性回归方程,达到由
一个已知量推测或控制另一个量的值的目标,是
计的一个重要方法.
(3)线性回归方程是根据本数据得到的一个确定性的
函数关系,是用来对未知量进行预测的,为了预测
的效果更好,减小误差,应在求线性回归方程时尽量
多地选取本,选择代表性较强的本,使得预测值
尽量地接近真值.
特别提醒:在对两个量进行线性回归分析时,要首
先结合观察数据画出散点图,确定它们之具有线性
相关关系后,再进行线性回归分析.
探究点2 非线性回归分析
1.如何评价回归模型合效果的优劣?
提示:计算相关指数R2的值.R2越接近于1效果就越好.
2.对于非线性回归模型,如何理?
提示:对于非线性回归模型可转化为线性回归模型来
研究.
【归纳结】
1.数据合效果的比较
对于给定的本点(x1,y1),(x2,y2),…,(xn,yn)
,两个含有未知参数的模型
(1) 和
(2) 其中a和b都是未知参数,可以
按如下的步骤来比较它们的合效果:
①分别建立对应于两个模型的回归方程 =f(x, )
与 =g(x, ),其中 和 分别是参数a和b的估计值.
②分别计算模型(1)和模型(2)的R1
2,R2
2.
③若R1
2>R2
2,则模型(1)的合效果比模型(2)好;若
R1
2<R2
2,则模型(1)的合效果不如模型(2).
2.常的几种形形式
(1)函数曲线y=axb.
两取对数形为lny=lna+blnx,令y′=lny.
x′=lnx,a′=lna,从而得到y′=a′+bx′.
(2)指数函数曲线y=aeb x.
两取对数形为lny=lna+bx,令y′=lny,a′=lna
,从而得到y′=a′+bx.
(3)负指数函数曲线y=
两取对数形为lny=lna+ ,令y′=lny,
x′= ,a′=lna,得y′=a+bx′.
(4)对数函数曲线y=a+blnx.
令x′=lnx,得y=a+bx′.
型一 线性回归模型
【典例】1.(2016·营高二检测)有下列说法:①线
性回归分析就是由本点去寻找一条直线方程,刻画
这些本点之的关系的数学方法;②利用本点的
散点图可以直观判断两个量的关系是否可以用线性
相关表示;③通过线性回归方程 及其回归系
数 ,可以估计和预报量的取值和化趋势;④因
为由任何一组观测值都可以求得一个线性回归方程,
所以没有必要进行相关性检验.其中正确说法的个数
是( )
A.1 B.2 C.3 D.4
2.(2014·湖北高考)根据如下本数据
得到的回归方程为 ,则( )
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
3.某种产品的广告费支出x(单位:百万元)与销售额y
(单位:百万元)之有如下对应数据:
(1)画出散点图.
(2)求y关于x的回归方程.
x 2 4 5 6 8
y 30 40 60 50 70
【解题探究】1.典例1中,给定两个量的一组本点
数据,都能进行线性回归分析吗?
提示:不是,只有当它们具有线性相关关系时,才能
进行线性回归分析,否则没有意义.
2.典例2中,回归直线方程中, , 的几何意是什
么?
提示: 是回归直线的斜率. 是回归直线在y轴上的
截距.
3.典例3中,画散点图的目的是什么?如何求关于x的
回归直线方程?
提示:画散点图的目的是分析变量x,y之间是否存在
线性相关关系;利用最小二乘法求y关于x的回归直线
方程.
【解析】1.选C.①反映的是最小二乘法思想,是正确
的;②反映的是散点图的作用,是正确的;③反映的
是求线性回归方程 的目的,也是正确的;
④不正确,在求回归方程之前,必须进行相关性检验,
以体现变量的相关关系.故有3个正确说法.
2.选A.由散点图及 , 的意义知A正确.
3.(1)散点图如图所示.
(2)列出下表,并用科学计算器进行有关计算.
i 1 2 3 4 5
xi(百万元) 2 4 5 6 8
yi(百万元) 30 40 60 50 70
xiyi 60 160 300 300 560
于是可得
=50-6.5×5=17.5.
于是所求的回归方程是 =6.5x+17.5
【方法技巧】
1.求线性回归方程的三个步骤
(1)算:根据数据计算
(2)代:代入公式求 , 的具体数值.
(3)求:由上面的计算结果求方程
2.求线性回归方程的关键点
相关性的验证:求线性回归方程前必须判断两个量
是否线性相关,如果两个量本身不具相关关系,
或者它们之的相关关系不显著,那么即使求出回归
方程也是毫无意的.
特别提醒:回归直线一定过本点的中心( , ),
这在很多问题的求解中起着很重要的作用.
【式训练】已知一个回归直线方程 =1.5x+45,
xi∈{1,5,7,13,19},则 =( )
A.53.5 B.55.5 C.58.5 D.60.5
【解析】选C.因为回归直线过样本点的中心( ),
又
所以 =1.5 +45=1.5×9+45=58.5.
型二 线性回归分析
【典例】为研究质量x(单位:克)对弹簧度y(单位:
厘米)的影响,对不同质量的6个物体进行测量,数据
如表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图,并求线性回归方程.
(2)求出R2.
(3)进行残差分析.
【解题探究】本例中如何进行残差分析?
提示:通过残差表或残差图进行残差分析.
【解析】(1)散点图如图所示.
因为 ×(5+10+15+20+25+30)=17.5,
×(7.25+8.12+8.95+9.90+10.9+11.8)
≈9.487,
=2275, =1076.2.
计算得 ≈0.183, ≈6.285,
所以所求线性回归方程为 =6.285+0.183x.
(2)列表如下:
0.05 0.005 -0.08 -0.045 0.04 0.025
-2.24 -1.37 -0.54 0.41 1.41 2.31
所以
所以
所以回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比
较大,需要确认在采集这个数据的时候是否有人为的
错误,如果有的话,需要纠正数据,重新建立回归模
型;由表中数据可以看出残差点比较均匀地落在不超
过0.15的狭窄的水平带状区域中,说明选用的线性回
归模型的精度较高,由以上分析可知,弹簧长度与质
量成线性关系.
【延伸探究】1.在条件不的情况下,画出残差图.
【解析】如图所示:
2.当x=35时,估计y的值.
【解析】当x=35时, =6.285+0.183×35=12.69.
【方法技巧】残差分析的思路
(1)要根据散点图来粗略判断它们是否线性相关,是否
可以用线性回归模型来合数据.
(2)通过残差 来判断模型合的效果,判断
原始数据中是否存在可疑数据,这种分析工作称为残
差分析,可以借助残差图来进行观察.
【偿训练】对量x,y进行回归分析时,依据得到
的4个不同的回归模型画出残差图,则下列模型合精
度最高的是( )
【解析】选A.用残差图判断模型的拟合效果,残差点
比较均匀地落在水平带状区域中,说明这样的模型比
较合适.带状区域的宽度越窄,拟合精度越高.故选A.
型三 非线性回归分析
【典例】容器充后,压达到100V,然后开始放
,由验知道,此后压U随时t化的规律用公
式U=Aebt(b