第一章 统计案例
1.1 回归分析的基本思想及其初步应用
【阅读教材】
根据下面的知识结构图阅读教材,进一步掌握线性回归分析方法,
了解判断线性回归模型的拟合效果的方法,初步认识解决非线性回归
问题的方法.
【知识链接】
1.回归分析
回归分析是对具有不确定性关系的两个变量进行统计分析的一种方法.
2.线性回归分析步骤
基本步骤为画散点图,求线性回归方程,用线性回归方程进行预报.
主题一:回归分析的相关概念
【自主认知】
1.一台机器由于使用时较,生产的零件有一些会有缺陷.按不同转
速生产出有缺陷的零件的计数据如下:
转速x(转/秒) 16 14 12 8
每小时生产有缺陷的零件数y(件) 11 9 8 5
在平面直角坐标系中作出散点图.
提示:散点图如图
2.从散点图中判断x和y之是否具有相关关系.
提示:点分布在一条直线附近,所以有相关关系.
3.若转速为10转/秒,能否预测机器每小时生产有缺陷的零件件数?
提示:可以.根据散点图作出一条直线,求出直线方程后可预测.
根据以上探究,完成以下填空.
1.相关关系与函数关系
相关关系是一种非确定性关系,_________是对具有相关关系的两个
量进行计分析的一种常用方法,函数关系是一种_______关系.回归分析
确定性
2.在线性回归模型y=bx+a+e中,最小二乘估计 和 就是未知参数a
和b的最好估计,其计算公式如下:
其中, 另外,______称为样本点的中心,回归直
线一定过样本点中心.
【合作探究】
1.线性回归模型是函数关系吗?
提示:y=bx+a+e与函数关系不同,在回归模型中,y的值由x和随机误
差e共同确定,即x只能解释部分y的变化.因此有时我们把x称为解释
变量,把y称为预报变量.
2.回归分析中,利用线性回归方程求出的函数值一定是真实值吗?为
什么?
提示:不一定是真实值,利用线性回归方程求的值,在很多时候是个
预报值,例如,人的体重与身高存在一定的线性关系,但体重除了受
身高的影响外,还受其他因素的影响,如饮食,是否喜欢运动等.
3.回归模型y=bx+a+e中e是什么,它有怎样的作用?
提示:e是随机误差.它的主要作用是提供选择模型的准则以及在模型
合理的情况下探求最佳估计值a,b的工具.
【过关小练】
1.下列有关回归直线方程 = x+ 的叙述:
①反映 与x之间的函数关系;②反映y与x之间的函数关系;
③表示 与x之间的不确定关系;④表示最接近y与x之间真实关系的
一条直线.
其中正确的是( )
A.①② B.②③ C.③④ D.①④
【解析】选D. = x+ 表示 与x之间的函数关系,而不是y与x之间
的函数关系,但它反映的关系最接近y与x之间的真实关系.故选D.
2.量y对x的线性回归方程为 =2-2.5x,则量x每增加一个单位
时,y平均 ( )
A.增加2.5个单位 B.增加2个单位
C.减少2.5个单位 D.减少2个单位
【解析】选C.回归直线的斜率 =-2.5,表示x每增加一个单位,y平均
减少2.5个单位.
主题二:线性回归分析
【自主认知】
1.在进行回归分析时由本数据一般为什么先作出散点图?
提示:作散点图的意义在于能直观明了地观察两变量间到底存在怎样
的关系,从而确定回归模型.
2.得到线性回归模型后为何要进行残差分析,其作用是什么?
提示:得到线性回归模型后进行残差分析,可以判断原始数据中是否存
在可疑数据,并检验模型的拟合效果,以便更准确地进行预报.
根据以上探究,完成以下填空.
刻画回归效果的形式
(1)残差分析:
①残差图:作图时纵坐标为_____,横坐标可以选为_________,或
_________,或___________等,这作出的图形称为残差图.
②残差分析:残差点比较_____地落在水平的带状区域中,说明选用
的模型比较合适,这的带状区域的宽度_____,说明模型合精度
越高,回归方程的预报精度越高.
残差 本编号
身高数据 体重估计值
均匀
越窄
(2)残差平方和:
公式 残差平方和为 (yi- i)2.
刻画方式 残差平方和_____,模型合效果越好.
越小
(3)相关指数R2:
公式
R2=1- _____________
意 R2表示_____量对于_____量化的贡献率.
刻画方式 R2越_____于1,表示回归的效果越好.
解释 预报
接近
【合作探究】
1.要确定回归方程,需确定的量是什么?
提示:要确定回归方程,关键是确定 和 的值.
2.相关指数R2的作用是什么?
提示:利用相关指数R2可以刻画数据拟合效果的好坏.在线性回归模型
中,R2的值越接近1,说明残差平方和越小,即说明模型的拟合效果越好.
【拓展延伸】非线性回归分析
(1)非线性相关关系:本点分布在某一条曲线的周围,而不是一条直
线附近,我们就称这两个量之不具有线性相关关系而是非线性相
关关系.
(2)非线性回归方程线性化
①y=axn(其中a,x,y均为正值)(函数型函数)
lgy=lga+nlgx,令u=lgy,v=lgx,b=lga,
则u=nv+b,图象为一直线.
②y=cax(a>0,c>0)(指数型函数)
lgy=xlga+lgc,令u=lgy,b=lgc,d=lga,
则u=dx+b,图象为一直线.
【过关小练】
1.有下列数据:
x 1 2 3
y 3 5.99 12.01
下列四个函数中,模效果最好的为 ( )
A.y=3×2x-1 B.y=log2x C.y=3x D.y=x2
【解析】选A.当x=1,2,3时,分别代入求y值,离y最近的值模拟效果最
好,知A模拟效果最好.
2.已知方程 =0.85x-85.7是根据女大学生的身高预报体重的回归
方程,其中x, 的单位分别是cm,kg,则该方程在本(165,57)的残
差是 .
【解析】当x=165时, =0.85×165-85.7=54.55,所以方程在样本
(165,57)处的残差是57-54.55=2.45.
答案:2.45
【拓展延伸】
1.对非线性回归分析的认识
在大量的问题中,研究的两个量不一定都呈线性相关关系,它们
之可能呈指数关系或对数关系或二次函数关系等非线性关系,可以
通过换(选择恰当的函数)化为线性关系得到回归直线方程,再通过
相应换得到非线性回归方程.
2.判断残差图异常的两个依据
(1)个别数据对应残差过大.
(2)残差呈现不随机的规律性.
【归纳总结】
对线性回归分析的四点说明
(1)由线性回归方程给出的是一个预报值而非精确值.
(2)随机误差的主要来源
①线性回归模型与真情况引起的误差;
②省略了一些因素的影响产生的误差;
③观测与计算产生的误差.
(3)残差分析是回归分析的一种方法.
(4)用相关指数R2来刻画回归效果.R2越大,意味着残差平方和越小,即
模型的合效果越好;R2越小,残差平方和越大,即模型的合效果越
差.
型一:回归分析的概念
【典例1】(1)有下列说法:①线性回归分析就是由本点去寻找一条
直线,使之贴近这些本点的数学方法;②利用本点的散点图可以
直观判断两个量的关系是否可以用线性关系表示;③通过回归方程
= x+ ,可以估计和观测量的取值和化趋势;④因为由任何一
组观测值都可以求得一个回归直线方程,所以没有必要进行相关性分
析.其中正确命题的个数是 ( )
A.1 B.2 C.3 D.4
(2)某产品的广告费用x与销售额y的统计数据如下表
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得回归方程 = x+ 中的 为9.4,据此模型预报广告费
用为6万元时销售额为 ( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
【解题指南】(1)根据相关概念及其性质逐一判断得出结论.
(2)利用回归直线方程过定点( )求解.
【解析】(1)选C.①反映的正是最小二乘法思想,故正确.②反映的
是画散点图的作用,也正确.③解释的是回归方程 = x+ 的作用,故
也正确.④是不正确的,在求线性回归方程之前必须进行相关性分
析,以体现两变量的关系.
(2)选B.易求得 =3.5, =42,则将(3.5,42)代入 = x+ 中得:
42=9.4×3.5+ ,即 =9.1,则 =9.4x+9.1,所以当广告费用为6万元
时销售额为9.4×6+9.1=65.5(万元).
【规律结】回归分析的四个关注点
(1)收集数据:随机抽取本,确定数据,形成本点.
(2)画散点图:由本点形成散点图,判断是否具有线性相关关系.
(3)求回归直线方程:若线性相关,由最小二乘法确定回归直线方程.
(4)看趋势:由回归方程观察量的取值及化趋势.
【巩固训练】关于量y与x之的回归直线方程叙述正确的
是 ( )
A.表示y与x之的一种确定性关系
B.表示y与x之的相关关系
C.表示y与x之的最真的关系
D.表示y与x之真关系的一种效果最好的合
【解析】选D.回归直线方程能最大可能地反映y与x之间的真实关系,
故选项D正确.
【偿训练】下列说法正确的有 ( )
①回归方程适用于一切本和体;
②回归方程一般都有时性;
③本取值的范围会影响回归方程的适用范围;
④回归方程得到的预报值是预报量的精确值.
A.①② B.①③ C.②③ D.③④
【解析】选C.①回归方程只适用于我们研究的样本和总体.②我们所
建立的回归方程一般都有时间性.③样本取值的范围会影响回归方程
的适用范围.④回归方程得到的预报值是预报变量可能取值的平均值,
并非精确值,故②③正确.
型二:线性回归分析
【典例2】已知某商品的价格x(元)与需求量y(件)之的关系有如下
一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)画出y关于x的散点图.
(2)求出回归直线方程.
【解题指南】正确利用求线性回归方程的步骤解答.
【解析】(1)画散点图:
【延伸探究】
1.(改问法)若本题条件不,计算R2的值,并说明回归模型合程度
的好坏.
【解析】
回归模型拟合效果很好.
2.(改问法)在本题条件不的情况下,画出残差图.
【解析】
【规律结】建立回归模型的一般步骤
【拓展延伸】残差图的分析方法
(1)残差图的纵坐标为残差,横坐标通常可以是本编号、解释量或
预报量等,残差图是一种散点图.
(2)残差散点图中的残差点比较均匀地落在水平的带状区域中,并且沿
水平方向散点的分布规律相同,说明残差是随机的,所选择的回归模型
建模是合理的,这的带状区域的宽度越窄,说明模型合精度越高,
回归方程的预报精度越高.(关键词:残差点比较均匀地落在水平带状
区域中)
【偿训练】甲、乙、丙、丁4位同学各自对A,B两量做回归分析,
分别得到散点图与残差平方和 如下表:
甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
哪位同学的试验结果体现合A,B两量关系的模型合精度
高? ( )
A.甲 B.乙 C.丙 D.丁
【解析】选D.从散点图上来看,丁同学的散点图中的点更加近似在一
条直线附近;从残差平方和来看,丁同学的最小,说明拟合精度最高.
型三:非线性回归分析
【典例3】在一次抽调查中测得本的5个本点,数据如下表:
x 0.25 0.5 1 2 4
y 16 12 5 2 1
求y与x之间的回归方程.
【解题指南】先画散点图,再选择合适的回归方程求解.本题样本点不
是线性相关的,因而可通过代换转化为线性相关的两个变量来求解.
【解析】画出散点图,如图所示,
观察可知y与x近似是反比例函数关系.设y= (k≠0),令t= ,则y=kt.
可得到y关于t的数据如下表:
t 4 2 1 0.5 0.25
y 16 12 5 2 1
画出散点图如图所示,观察可知t和y有较强的线性相关性,因此可利用
线性回归模型进行拟合,
列表如下:
i ti yi tiyi
1 4 16 64 16 256
2 2 12 24 4 144
3 1 5 5 1 25
4 0.5 2 1 0.25 4
5 0.25 1 0.25 0.0625 1
∑ 7.75 36 94.25 21.3125 430
所以 =4.134 4t+0.791 7,
所以y与x之间的回归方程是
【规律结】非线性回归方程的求法
(1)作散点图:根据原始数据(x,y)作出散点图.
(2)选择函数模型:根据散点图选择恰当的合函数.
(3)换:作恰当的换,将其转化成线性函数,求线性回归方程.
(4)还原:在(3)的基础上通过相应换,即可得非线性回归方程.
【拓展延伸】常的非线性回归模型转化为线性回归模型的方法
曲线方程 曲线图形 换
公式
换后的
线性函数
y=axb
c=lna
v=lnx
u=lny
u=c+bv
曲线方程 曲线图形 换
公式
换后的
线性函数
y=aebx c=lna
u=lny u=c+bx
c=lna
v=
u=lny
u=c+bv
【巩固训练】(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品
的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年
利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,
2,…,8)数据作了初步理,得到下面的散点图及一些计量的值.
46.6 563 6.8 289.8 1.6 1 469 108.8
(1)根据散点图判断,y=a+bx与y=c+d 哪一个适宜作为年销售量y关
于年宣传费x的回归方程型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果
回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu
的斜率和截距的最小二乘估计分别为:
【解题指南】(1)将相应的点代入到y=a+bx与y=c+d 中进行验
证.(2)令w= ,先建立y关于w的线性回归方程,再确定y关于x的回归
方程.(3)将x=49代入到(2)中y关于x的回归方程求解.
【解析】(1)由散点图可以判断,y=c+d 适宜作为年销售量y关于
年宣传费x的回归方程类型.
(2)令w= ,先建立y关于w的线性回归方程.
所以y关于w的线性回归方程为 =100.6+68w,因此y关于x的回归
方程为 =100.6+68 .
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68 =576.6,
年利润z的预报值 =576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68 )-x=-x+13.6 +20.12.
所以当 =6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
【偿训练】某学校开展研究性学习活,某同学获得一组验数据
如下表:
x 1.99 3 4 5.1 6.12
y 1.5 4.04 7.5 12 18.01
对于表中数据,现给出下列合曲线,其中合程度最好的是( )
A.y=2x-2 B.y=( )x
C.y=log2x D.y= (x2-1)
【解析】选D.可以代入检验,当x取相应的值时,所求y与已知y相差平
方和最小的便是拟合程度最高的.