1
.
2
回归分析
1
.
掌握回归直线方程的形式
,
理
解 及
样本中心点的含义
,
并会求回归直线方程
.
2
.
理解样本相关系数
r
的含义
,
掌握如何用样本相关系数
r
来衡量两个变量之间的线性相关程度
.
1
2
1
.
回归直线方程
1
2
1
2
【做一做
1
-
1
】
两个相关变量满足如下数据关系
:
则
y
对
x
的回归直线方程为
(
)
答案
:
A
1
2
【做一做
1
-
2
】
设有一个回归直线方程
为
,
则当变量
x
增加
1
个单位时
(
)
A.
y
平均增加
3
个单位
B.
y
平均减少
5
个单位
C.
y
平均增加
5
个单位
D.
y
平均减少
3
个单位
解析
:
因为
-
5
是斜率的估计值
,
说明
x
每增加
1
个单位时
,
y
平均减少
5
个单位
.
答案
:
B
1
2
2
.
样本相关系数
r
具有以下性质
:
|r|
≤
1,
并且
|r|
越接近
1
,
线性相关程度越强
;
|r|
越接近
0
,
线性相关程度越弱
.
检验的步骤如下
:
(1)
作统计假设
:
x
与
Y
不具有线性相关关系
.
(2)
根据小概率
0
.
05
与
n-
2
在教材附表中查出
r
的一个临界值
r
0
.
05
.
(3)
根据样本相关系数计算公式算出
r
的值
.
(4)
作统计推断
.
如果
|r|>r
0
.
05
,
表明有
95%
把握认为
x
与
Y
之间具有线性相关关系
.
如果
|r|
≤
r
0
.
05
,
我们没有理由拒绝原来的假设
.
这时寻找回归直线方程是毫无意义的
.
1
2
名师点拨
(1)
当
r>
0
时
,
表示两个变量正相关
;
当
r<
0
时
,
表示两个变量负相关
;(2)
判断两个变量间是否有线性相关关系
,
应该先求样本相关系数
r
,
再根据
r
的具体数值进行判断
.
1
2
【做一做
2
-
1
】
下列有关样本相关系数
r
的说法不正确的是
(
)
A.
|r|
≤
1,
且
|r|
越接近
1,
线性相关程度越强
B.
|r|
≤
1,
且
|r|
越接近
0,
线性相关程度越弱
C.
|r|
≥
1,
且
|r|
越接近
1,
线性相关程度越强
D.
用样本相关系数
r
来衡量
x
与
y
之间的线性相关程度
解析
:
根据样本相关系数的性质可知选项
A,B,D
均正确
.
答案
:
C
1
2
【做一做
2
-
2
】
若回归直线方程中的回归系
数 则相关系数
(
)
A.
r=
1 B.
r=-
1
C.
r=
0 D.
无法确定
答案
:
C
1
2
1
.
如何进行线性回归分析
?
剖析
:(1)
从一组数据出发
,
求出两个变量的相关系数
r
,
确定二者之间是否具有线性相关关系
.
(3)
根据回归直线方程
,
由一个变量的值预测或控制另一个变量的值
.
特别说明
:
①
回归方程只适用于所研究的样本总体
.
②
所建立的回归方程一般都有时效性
,
如不能用根据
20
世纪
80
年代中学生的身高、体重数据所建立的回归方程来描述现在中学生的身高和体重的关系
.
③
样本取值的范围会影响回归方程的适用范围
.
1
2
题型一
题型二
题型三
求线性回归方程
【例题
1
】
假设关于某设备的使用年限
x
(
年
)
和所支出的维修费用
y
(
万元
),
有如下的统计资料
:
若由资料知
y
与
x
具有线性相关关系
.
试求
:
(2)
估计使用年限为
10
年时
,
维修费用是多少
?
题型一
题型二
题型三
分析
:
因为
y
与
x
具有线性相关关系
,
所以可以用求线性回归方程的方法解决问题
.
(2)
获得回归直线方程后
,
取
x=
10
代入
,
即得所求
.
解
:
(1)
制表
:
题型一
题型二
题型三
(2)
回归直线方程
是
.
23
x+
0
.
08,
当
x=
10
时
,
y=
1
.
23
×
10
+
0
.
08
=
12
.
3
+
0
.
08
=
12
.
38(
万元
),
即估计使用
10
年时维修费用是
12
.
38
万元
.
反思
已知
y
与
x
具有线性相关关系
,
就无须进行相关性检验
,
否则
,
应首先进行相关性检验
.
如果本身两个变量不具有相关关系
,
或者说
,
它们之间的相关关系不显著
,
即使求出回归方程也是毫无意义的
,
而且用其进行的预测也是不可信的
.
题型一
题型二
题型三
相关性检验与回归分析的综合运用
【例题
2
】
要分析学生高一入学时的数学成绩对高一年级数学学习有什么影响
,
在高一年级学生中随机抽取
10
名学生
,
分析他们高一入学数学成绩
(
x
)
和高一期末考试数学成绩
(
y
)(
如下表
):
(1)
画出散点图
;
(2)
计算高一入学数学成绩
(
x
)
与高一期末考试数学成绩
(
y
)
的相关系数
;
(3)
对变量
x
与
y
进行相关性检验
,
如果
x
与
y
之间具有线性相关关系
,
求出
y
对
x
的回归直线方程
;
(4)
若某学生高一入学数学成绩为
80
分
,
试估计他高一期末考试数学成绩
.
题型一
题型二
题型三
分析
:(1)
借助于散点图可大致判定两变量间的相关性
,
用相关系数公式可准确判定两变量间的相关程度
.
(2)
先作统计假设
,
由小概率
0
.
05
与
n-
2
在附表中查得相关系数的临界值
r
0
.
05
,
若
|r|>r
0
.
05
,
则两变量线性相关
,
否则两变量不具有线性相关性
.
解
:
(1)
高一入学数学成绩
(
x
)
与高一期末考试数学成绩
(
y
)
两组变量的散点图如图
,
从散点图看
,
这两个变量间具有线性相关关系
.
题型一
题型二
题型三
结果说明这两组数据的相关程度是比较高的
.
题型一
题型二
题型三
(3)
查表求得显著性水平
0
.
05
和自由度
10
-
2
=
8
的相关系数临界值
r
0
.
05
=
0
.
632,
因
|r|>r
0
.
05
,
这说明高一入学数学成绩与高一期末考试数学成绩之间存在线性相关关系
.
(4)
若某学生高一入学数学成绩为
80
分
,
代入上式可求
得
, ≈84
分
,
即这个学生高一期末考试数学成绩的预测值为
84
分
.
题型一
题型二
题型三
反思
求解两个变量的相关系数及它们的回归直线方程的计算量较大
,
需要细心、认真地计算
.
另外
,
利用计算机中有关应用程序也可以对这些数据进行处理
.
题型一
题型二
题型三
易错题型
易错点
:
求回归直线方程和进行回归分析的题目的计算量较大
,
公式较多
,
所以在求解时易出现公式错用、数据求错的现象
.
【例题
3
】
英语老师为了了解学生的词汇量
,
设计了一份包含
100
个单词的试卷
,
现抽取
15
名学生进行测试
,
得到学生掌握试卷中单词个数
x
与该学生实际掌握单词量
y
的对应数据如下
:
(1)
对变量
y
与
x
进行相关性检验
;
(2)
如果
y
与
x
之间具有线性相关关系
,
则
①
求
y
对
x
的回归直线方程
;
②
求
x
对
y
的回归直线方程
.
题型一
题型二
题型三
错解
:
(1)
由计算器求下列数据
:
题型一
题型二
题型三
查相关系数检验的临界值表
,
得
r
0
.
05
(15
-
2)
=
0
.
514
.
由于
|r|r
0
.
05
,
故
y
与
x
有线性相关关系
.
题型一
题型二
题型三
题型一
题型二
题型三
1 2 3 4
解析
:
由回归直线方程的斜
率 与相关系数
r
的计算公式可以得出结论
.
答案
:
A
1 2 3 4
2
工人月工资
y
(
元
)
依劳动生产率
x
(
千元
)
变化的回归直线方程
为
,
则下列判断正确的是
(
)
①
当劳动生产率为
1 000
元时
,
工资为
130
元
;
②
当劳动生产率提高
1 000
元时
,
工资平均提高
80
元
;
③
当劳动生产率提高
1 000
元时
,
工资平均提高
130
元
;
④
当月工资为
210
元时
,
劳动生产率为
2 000
元
.
A.
①
B.
②
C.
③
D.
④
答案
:
B
1 2 3 4
3
已知
y
与
x
之间的一组数据如下
:
则拟合这
5
对数据的回归直线一定经过点
.
答案
:
(2,4)
1 2 3 4
4
下表是某厂
1
~
4
月份用水量
(
单位
:
百吨
)
的一组数据
,
已知用水量
y
与月份
x
之间有较好的线性相关关系
,
其线性回归方程
是
答案
:
5
.
25