天添资源网 http://www.ttzyw.com/
第四节 变量间的相关关系、统计案例
[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中=,=.
(3)通过求Q= (yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当rR;
③x,y之间不能建立线性回归方程.
①② [在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
[规律方法] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:时,正相关;时,负相关.
线性回归分析及应用
【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
[规律方法] 线性回归分析问题的类型及解题方法
(1)求线性回归方程:
①利用公式,求出回归系数
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:,把回归直线方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关:
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
决定正相关还是负相关的是系数
(2018·临沂期末)某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如下表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:.
参考公式:
[解] (1)
==1.7,
故y关于x的线性回归方程是=1.7x+28.4.
(2)∵0.75<0.93,∴二次函数回归模型更合适.
当x=3时,=33.5.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.5万元.
独立性检验及应用
【例2】 (2017·全国卷Ⅱ)
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828,
K2=.
[解] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
天添资源网 http://www.ttzyw.com/
天添资源网 http://www.ttzyw.com/
箱产量6.635,所以有99%的把握认为两种生产方式的效率有差异.
天添资源网 http://www.ttzyw.com/