专题 32 回归分析(解答题)
1.经验表明,在室温 25 C 下,85 C 开水冷至35C 到 40 C (温水)饮用对身体更有益.某
研究人员每隔1min 测量一次开水温度(如下表),经过 minx 后的温度为 Cy .现给出以下
2 个函数模型:
① 25( ,0 1, 0)ay kx k R a x ;② 25( ,0 1, 0)xy ka k R a x ,
其中 a 为温度衰减比例,计算公式为
1 1
251 ( )5 25i
n
i
i
ya i Ny
.
开水温度变化
时间 / minx 0 1 2 3 4 5
水温 / Cy 85 79 75 71 68 65
(1)请选择一个恰当的函数模型描述 ,x y 之间的关系,并求出 k;
(2)求 a 值(a 保留 0.01);
(3)在 25 C 室温下,85 C 开水至少大约放置多长时间(单位:min ,保留整数)才能冷至
到对身体有益温度?(参考数据: 16.6
1 40.92
, 21.5
1 60.92
)
【试题来源】江苏省南通市通州区 2020-2021 学年高三上学期 9 月第一次诊断测试
【答案】(1)应该选择②,k 的值为 60;(2) 0.92 ;(3)17min .
【分析】(1)应用表格数据代入所选模型确定是否合适,有矛盾的排除,选择合适的模型即
可;(2)根据题设提供的公式计算求值;(3)由人体合适温度在35 C 到 40 C 之间,结合
(1)(2)所得模型列不等式求 x 范围即可;
【解析】(1)若选择① 25( ,0 1, 0)ay kx k R a x ,把 0x 代入得 25 85y 矛
盾;若选择② 25( ,0 1, 0)xy ka k R a x ,把 0, 85x y 代入,得 60k .
所以选择② 25( ,0 1, 0)xy ka k R a x ,其中 k 的值为 60.
(2)
5
1 1
251 1 54 50 46 43 40
5 25 5 60 54 50 46 43
i
i i
ya y
0.92
(3)由(1)(2)知,x、y 之间的关系为 60 0.92 25xy ,
因为85 C 开水冷至35 C 到 40 C (温水)饮用对身体更有益,
所以35 60 0.92 25 40x ,有 1 10.926 4
x ,即 14 60.92x ,
又 16.6 21.5
1 14, 60.92 0.92
,得16.6 21.5x ,
所以在 25 C 室温下,85 C 开水至少大约放置17min 才能冷至到对身体有益温度.
【名师点睛】本题考查了利用表格数据选择合适的数学模型,并确定模型中的参数值,进而
应用模型计算预测值,属于中档题.
2.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污
染性,所以需要无害化、减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方
法抽取 20 个县城进行了分析,得到样本数据 , 1,2, ,20i ix y i ,其中 ix 和 iy 分别表示
第 i 个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得
20
1
80i
i
x
,
20
1
4000i
i
y
, 20 2
1
80i
i
x x
, 20 2
1
8000i
i
y y
, 20
1
700i i
i
x x y y
.
(1)请用相关系数说明该组数据中 y 与 x 之间的关系可用线性回归模型进行拟合;
(2)求 y 关于 x 的线性回归方程,用所求回归方程预测该市 10 万人口的县城年垃圾产生总
量约为多少吨?
参考公式:相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
,对于一组具有线性相关关系的数据
, 1,2,3, ,i ix y i n ,其回归直线 y bx a $ $ $ 的斜率和截距的最小二乘估计分别为
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
, a y bx $ $ .
【试题来源】广西梧州市 2021 届高三 3 月联考(文)
【答案】(1)答案见解析;(2)252.5 吨.
【分析】(1)利用相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
,代入数据求出 0.875r ,相关
系数绝对值越大,相关性越强即可判断. (2)由
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
, a y bx $ $ ,代
入系数即可求出回归直线方程,再将 10x 代入即可求解.
【解析】(1)由题意知,相关系数
1
2
20
2
1 1
20 20
700 7 0.875880 8000
i i
i
i i
i i
x x y y
r
x x y y
.
因为 y 与 x 的相关系数接近 1,
所以 y 与 x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.
(2)由题意可得,
20
1
20 2
1
700 8.7580
i i
i
i
i
x x y y
b
x x
,
4000 808.75 200 8.75 4 16520 20a y bx ,
所以 8.75 165y x .当 10x 时, 8.75 10 165 252.5y ,
所以该市 10 万人口的县城年垃圾产生总量约为 252.5 吨.
3.某湿地公园经过近十年的规划和治理,生态系统得到很大改善,野生动物数量有所增加.为
调查该地区某种野生动物的数量,将其分成面积相近的 300 个地块,并设计两种抽样方案,
方案一:在该地区应用简单随机抽样的方法抽取 30 个作为样本区;依据抽样数据计算得到
相应的相关系数 0.81r ;方案二:在该地区应用分层抽样的方法抽取 30 个作为样本区,
调查得到样本数据 ,i ix y ( 1i ,2,…,30),其中 ix 和 iy 分别表示第 i 个样区的植物覆
盖面积(单位:公顷)和这种野生动物的数量,并计算得
30
1
60i
i
x
,
30
1
1200i
i
y
,
30 2
1
90i
i
x x
, 30 2
1
8000i
i
y y
, 30
1
800i i
i
x x y y
.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生
动物数量的平均数乘以地块数);
(2)求方案二抽取的样本 ,i ix y ( 1i ,2,…,30)的相关系数(精确到 0.01);并判
定哪种抽样方法更能准确的估计.
附:相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
, 2 1.414 ;相关系数 0.75,1r ,则相
关性很强, r 的值越大,相关性越强.
【试题来源】陕西省宝鸡市金台区 2020-2021 学年高三上学期 11 月教学质量检测(理)
【答案】(1)12000;(2) 0.94r ,方案二的分层抽样方法更能准确的估计.
【分析】(1)先由题中条件,得到样区野生动物平均数,进而可得出结果;(2)根据题中数
据,直接计算相关系数;根据两种方案对应的相关系数的值,即可得出结果.
【解析】(1)由题意可得,样区野生动物平均数为
30
1
1 1 1200 4030 30i
i
y
,
又地块数为 300,所以该地区这种野生动物的估计值为300 40 12000 ;
(2)由题中数据可得,样本 ,i ix y ( 1i ,2,…,30)的相关系数为
30
1
30 302 2
1 1
800 2 2 0.94390 8000
i i
i
i i
i i
x x y y
r
x x y y
.
因为方案一的相关系数为 0.81r 明显小于方案二的相关系数为 0.94r ,
所以方案二的分层抽样方法更能准确的估计.
4.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原
料总成本 y (元)与生产该产品的数量 x (千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制如图所示的散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型 lny a b x 和指数函
数模型 xy c d 分别对两个变量的关系进行拟合.
(1)根据散点图判断, lny a b x 与 xy c d ( c ,d 均为大于零的常数)哪一个适宜
作为非原料总成本 y 关于生产该产品的数量 x 的回归方程类型;(给出判断即可,不必说明
理由)
(2)根据(1)的判断结果及表 1 中的数据,建立 y 关于 x 的回归方程;
(3)已知每件产品的原料成本为 10 元,若该产品的总成本不得高于 123470 元,请估计最
多能生产多少千件产品.
参考数据:
y v
7
1
i i
i
x y
7
1
i i
i
x v
0.5410
62.14 1.54 2535 50.12 3.47
其中 lgi iv y ,
1
1
7
n
i
i
v v
.
参考公式:对于一组数据 1 1,u v , 2 2,u v ,…, ,n nu v ,其回归直线 ˆˆ ˆv a u 的斜率
和截距的最小二乘估计公式分别为 1
2 2
1
ˆ
n
i i
i
n
i
i
u v nuv
u nu
, ˆˆa v u .
【试题来源】江苏省 2020-2021 学年高三上学期 8 月开学测试
【答案】(1) xy c d 适宜;(2) 0.253.47 10 xy ;(3)12 千件产品.
【分析】(1)根据散点图判断, xy c d 适宜;
(2)由 xy c d ,两边同时取常用对数得 lg lg lg lgxy c d c x d .设 lg y v ,
可得 lg lgv c x d ,根据表格数据、参考数据和参考公式求出 y 关于 x 的回归方程;
(3)生产总成本=非原料总成本+原料总成本.写出生产总成本为 ( )g x 的解析式,根据 ( )g x
的单调性,可求产品数量 x 的最大值.
【解析】(1)根据散点图判断, xy c d 适宜作为非原料总成本 y 关于生产该产品的数量 x
的回归方程类型.
(2)由 xy c d ,两边同时取常用对数得 lg lg lg lgxy c d c x d .
设 lg y v ,所以 lg lgv c x d ,
因为
7
2
1
4, 1.54, 140i
i
x v x
,
所以
7
1
7 2
2 2
1
7 50.12 7 4 1.54 7lg 0.25140 7 4 287
i i
i
i
i
x v xv
d
x x
.
把 (4,1.54) 代入 lg lgv c x d ,得 lg 0.54c ,
所以 ˆ 0.54 0.25v x ,所以 ˆlg 0.54 0.25y x ,
所以 0.54 0.25 0.25ˆ 10 3.47 10x xy ,
即 y 关于 x 的回归方程为 0.25ˆ 3.47 10 xy .
(3)设生产了 x 千件该产品.则生产总成本为 0.25( ) 3.47 10 10 1000xg x x .
又 0.25( ) 3.47 10 10000xg x x 在其定义域内单调递增,
且 3(12) 3.47 10 120000 123470g ,
故最多能生产 12 千件产品.
5.2020 年春节前后,一场突如其来的新冠肺炎疫情在武汉出现并很快地传染开来(已有证
据表明 2019 年 10 月、11 月国外已经存在新冠肺炎病毒),人传人,传播快,传播广,病亡
率高,对人类生命形成巨大危害.在中华人民共和国,在中共中央、国务院强有力的组织领
导下,全国人民万众一心抗击、防控新冠肺炎,疫情早在 3 月底已经得到了非常好的控制(累
计病亡人数 3869 人).然而,国外因国家体制、思想观念与中国的不同,防控不力,新冠肺
炎疫情越来越严重.据美国约翰斯·霍普金斯大学每日下午 6 时公布的统计数据,选取 5 月
6 日至 5 月 10 日的美国的新冠肺炎病亡人数如下表(其中 t 表示时间变量,日期“5 月 6 日”、
“5 月 7 日”对应于“t=6"、“t=7",依次下去),由下表求得累计病亡人数与时间的相关系数
r=0.98.
(1)在 5 月 6 日~10 日,美国新冠肺炎病亡人数与时间(日期)是否呈现线性相关性?
(2)选择对累计病亡人数四舍五入后个位、十位均为 0 的近似数,求每日累计病亡人数 y
随时间 t 变化的线性回归方程;
(3)请估计美国 5 月 11 日新冠肺炎病亡累计人数,请初步预测病亡人数达到 9 万的日期.
附 : 回 归 方 程 y a bt
中 斜 率 和 截 距 最 小 二 乘 估 计 公 式 分 别 为
1
2
1
( )( )
,
( )
n
i i
i
n
i
i
t t y y
b a y bt
t t
【试题来源】云南省 2020 届高三适应性考试(理)(A 卷)
【答案】(1)是;(2) ˆ 1840 61920y t ;(3)82160 人,5 月 16 日
【分析】(1)根据相关系数 0.98 0.7r 可得到结论;
(2)首先算出t 和 y ,然后根据公式计算出答案即可;
(3)求出当 11t 时 ˆy 的值,然后解出不等式 ˆ 1840 61920 90000y t ≥ 即可.
【解析】(1)每日累计病亡人数与时间的相关系数 0.98 0.7r ,
所以每日病亡累计人数 y 与时间t 呈现强线性相关性,
(2)5 天 5 个时间的均值 6 7 8 9 10 85t .
5 天 5 个病亡累计人数的均值 23 55 69 85 10070000 100 766405y .
计算 5 个时间与其均值的差 t t ,计算 5 个累计病亡人数与其均值的差 y y ,制作下表:
日 期 5 月 6 日 5 月 7 日 5 月 8 日 5 月 9 日 5 月 10 日 均值
时间t 6 7 8 9 10 8t
新冠肺炎
累计病亡人数
72300 75500 76900 78500 80000
76640y
t t −2 −1 0 1 2
y y −4340 −1140 260 1860 3360
用公式 1
2
1
( )( )
ˆ ˆ
( )
n
i i
i
n
i
i
t t y y
b a y bt
t t
- -
-
-
å
å
$,
进行计算:
2 2 2 2 2
( 2)( 4340) ( 1)( 1140) 0 260 1 1860 2 3360ˆ 1840( 2) ( 1) 0 1 2b ,
ˆˆ 76640 1840 8 61920a y b t .
所以每日累计病亡人数 y 随时间t 变化的线性回归方程是 ˆ 1840 61920y t .
(3)日期 5 月 11 日对应时间 11t , ˆ 1840 11 61920 82160y ,
所以,估计 5 月 11 日累计病亡人数是 82160.
令 ˆ 1840 61920 90000y t ≥ ,解得 15.26t≥ ,
病亡人数要达到或超过 9 万,即 16t≥ , 16t 对应于 5 月 16 日,
因此预测 5 月 16 日美国新冠肺炎病亡人数超过 9 万人.
【名师点睛】本题考查的是线性回归的相关知识,考查了学生的阅读能力和计算能力,属于
基础题.
6.根据统计,某蔬菜基地西红柿亩产量的增加量 y(百千克)与某种液体肥料每亩使用量 x
(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合 y 与 x 的关系,请计算相关系数
r 并加以说明(若 0.75r ,则线性相关程度很高,可用线性回归模型拟合);
(2)求 y 关于 x 的回归方程,并预测当液体肥料每亩使用量为 12 千克时,西红柿亩产量的
增加量约为多少?
附:相关系数公式
1 1
2 2 2 22 2
1 1 1 1
n n
i i i i
i i
n n n n
i i i i
i i i i
x x y y x y nxy
r
x x y y x nx y ny
.
参考数据: 0.3 0.55 , 0.9 0.95 .
回 归 方 程 y bx a $ $ $ 中 斜 率 和 截 距 的 最 小 二 乘 估 计 公 式 分 别 为
1 1
2 22
1 1
n n
i i i i
i i
n n
i i
i i
x x y y x y nxy
b
x x x nx
, a y xb .
【试题来源】山西省 2021 届高三上学期八校联考(文)
【答案】(1)0.95;答案见解析;(2) 0.3 2.5y x ;610 千克.
【分析】(1)根据散点图中的数据分别求得可得 x ,y , 5
1
i i
i
x x y y
, 5 2
1
i
i
x x
,
5 2
1
i
i
y y
,进而求得相关系数 r ,再与 0.75 比较下结论.
(2)结合(1)中的数据,分别求得b , a ,写出回归方程,然后将 12x 代入求解.
【解析】(1)由已知数据可得 2 4 5 6 8 55x , 3 4 4 4 5 45y ,
所以
5
1
3 1 1 0 0 0 1 0 3 1 6i i
i
x x y y
,
5 2 2 2 2 2 2
1
3 1 0 1 3 2 5i
i
x x
,
5 2 2 2 2 2 2
1
1 0 0 0 1 2i
i
y y
,
所以相关系数
5
1
5 52 2
1 1
6 9 0.95102 5 2
i i
i
i i
i i
x x y y
r
x x y y
.
因为 0.75r ,所以可用线性回归模型拟合 y 与 x 的关系.
(2)
5
1
5 2
1
6 0.320
i i
i
i
i
x x y y
b
x x
, 4 5 0.3 2.5a ,
所以回归方程为 0.3 2.5y x .当 12x 时, 0.3 12 2.5 6.1y ,
即当液体肥料每亩使用量为 12 千克时,西红柿亩产量的增加量约为 610 千克.
7.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原
料成本 y(元)与生产该产品的数量 x(千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7 8
y 112 61 44.5 35 30.5 28 25 24
根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比
例函数模型 by a x
和指数函数模型 dxy ce 分别对两个变量的关系进行拟合,(反比例函
数模型 by a x
可用 1u x
转化为线性回归模型 y a bu ;指数函数模型 dxy ce 可转
化为 ln y 和 x 的线性回归模型 ln lny dx c )现已求得用指数函数模型拟合的回归方程为
0.296.54 xy e , ln y 与 x 的相关系数 0.94r ;
(1)用反比例函数模型求 y 关于 x 的回归方程 by a x
;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到 0.01),并用其估计产量为
10 千件时每件产品的非原料成本.
参考数据:
8
1
183.4i i
i
u y
, 0.34u , 2
0.115u ,
8
2
1
1.53i
i
u
, 45y ,
8
2
1
22385.5i
i
y
,
8 22
1
8 6185.5i
i
y y
(其中 1 , 1,2 ,8i
i
u ix
, 0.61 6185.5 61.4
参考公式:对于一组数据 1 1 2 2, , , , , ,n nu v u v u v ,其回归直线 v a bu 的斜率和截
距 的 最 小 二 乘 法 估 计 分 别 为 1
22
1
ˆ,
n
i i
i
n
i
i
u y nuv
b a v bu
u nu
, 相 关 系 数
1
2 22 2
1 1
n
i i
i
n n
i i
i i
u v nuv
r
u nu v nv
【试题来源】安徽省淮南市 2020 届高三下学期最后一卷(文)
【答案】(1) 100ˆ 11y x
;(2)用反比例函数模型拟合效果更好,估计为 21 元.
【分析】(1)根据公式和已知数据计算线性回归模型 y a bu 即可得 ˆ 11 100y u ,进
而得 y 关于 x 的回归方程为 100ˆ 11y x
;
(2)根据已知数据和公式计算 y 与 1
x
的相关系数得 2 0.99r ,进而得用反比例函数模型拟
合效果更好,再用反比例模型估计即可得答案.
【解析】(1)令 1u x
,则 by a x
可转化为 y a bu ,
因为 360 458y ,所以
8
1
8
2 2
1
8 183.4 8 0.34 45 61ˆ 1001.53 8 0.115 0.618
i i
i
i
i
u y u y
b
u u
,
则 45ˆˆ 100 0.34 11a y bu ,所以 ˆ 11 100y u
所以 y 关于 x 的回归方程为 100ˆ 11y x
;
(2)y 与 1
x
的相关系数为
8
1
2 8 8
2 2 2 2
1 1
8 61 61 0.9961.40.61 6185.58 8
i i
i
i i
i i
u y u y
r
u u y y
,
因为 1 2r r ,所以用反比例函数模型拟合效果更好,
把 10x 代入回归方程: 100ˆ 11y x
, 100 11 2110y (元).
所以当产量为 10 千件时,每件产品的非原料成本估计为 21 元.
【名师点睛】本题考查可转换为线性回归的非线性回归方程的求解,相关系数的计算等知识
点,考查运算能力,是中档题.
8.某公司为了了解年研发资金投人量 x (单位:亿元)对年销售额 y (单位:亿元)的影
响.对公司近12 年的年研发资金投入量 ix 和年销售额 iy 的数据,进行了对比分析,建立了
两个函数模型:① 2y x ,② x ty e ,其中 、 、 、 t 均为常数, e 为自然对
数的底数.并得到一些统计量的值.令 2
i iu x , ln 1,2, ,12i iv y i ,经计算得如下
数据:
x y 12 2
1
i
i
x x
12 2
1
i
i
y y
u v
20 66 77 2 460 4.20
12 2
1
i
i
u u
12
1
i i
i
u u y y
12 2
1
i
i
v v
12
1
i i
i
x x v v
31250 215 3.08 14
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(ⅰ)根据(1)的选择及表中数据,建立 y 关于 x 的回归方程;
(ⅱ)若下一年销售额 y 需达到90亿元,预测下一年的研发资金投入量 x 是多少亿元?
附:①相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
,
回归直线 y a bx 中公式分别为
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
, a y bx $ $ ;
②参考数据: 308 4 77 , 90 9.4868 , 4.4998 90e .
【试题来源】2021 年高考数学三年真题与两年模拟考点分类解读(新高考地区专用)
【答案】(1)模型 x ty e 的拟合程度更好;(2)(ⅰ) 0.18 0.56v x ;(ⅱ) 21.89 亿
元.
【分析】(1)计算出两个模型的相关系数,选择相关系数绝对值较大的模型拟合较好;
(2)(ⅰ)由(1)可知,选择模型 x ty e 拟合较好,变形得到 ln y x t ,即 v t x ,
然后利用表格中的数据以及最小二乘法公式求出 和t 的值,即可得出回归方程;
(ⅱ)在所求回归方程中,令 90y ,结合题中参考数据可求出 x 的值,即可求解.
【解析】(1)设 iu 和 iy 的相关系数为 1r , ix 和 iv 的相关系数为 2r ,由题意,
12
1
1 12 122 2
1 1
215 43 0.865031250 2
i i
i
i i
i i
u u y y
r
u u y y
,
12
1
2 12 122 2
1 1
14 10 0.911177 3.08
i i
i
i i
i i
x x v v
r
x x v v
,
则 1 2r r ,因此从相关系数的角度,模型 x ty e 的拟合程度更好;
(2)(ⅰ)先建立 v 关于 x 的线性回归方程,
由 x ty e ,得 ln y t x ,即 v t x ;
由于
12
1
12 2
1
2 0.18211
i i
i
i
i
x x v v
x x
, 24.20 20 0.5611t v x ,
所以 v 关于 x 的线性回归方程为 0.18 0.56v x ,
所以 ln 0.18 0.56y x ,则 0.18 0.56e xy ;
(ⅱ)下一年销售额 y 需达到90亿元,即 90y ,代入 0.18 0.56e xy ,得 0.18 0.5690 xe ,
又 4 4998e 90 ,所以 4.4998 0.18 0.56x ,所以 4.4998 0.56 21.890.18x ,
所以预测下一年的研发资金投入量约是 21.89 亿元.
【名师点睛】本题考查利用相关系数选择回归模型,同时也考查了非线性回归模型的求解,
以及利用回归方程解决实际问题,考查计算能力,属于中等题.
9.2020 年上半年,随着新冠肺炎疫情在全球蔓延,全球超过 60 个国家或地区宣布进人紧
急状态,部分国家或地区直接宣布“封国”或“封城”,随着国外部分活动进入停摆,全球经济
缺乏活力,一些企业开始倒闭,下表为 2020 年第一季度企业成立年限与倒闭分布情况统计
表:
企业成立年份 2019 2018 2017 2016 2015
企业成立年限 x 1 2 3 4 5
倒闭企业数量(万家) 5.28 4.72 3.58 2.70 2.15
倒闭企业所占比例 %y 21.4% 19.1% 14.5% 10.9% 8.7%
(1)由所给数据可用线性回归模型拟合 y 与 x 的关系,请用相关系数加以说明;
(2)建立 y 关于 x 的回归方程,预测 2014 年成立的企业中倒闭企业所占比例.
参考数据:
5
1
74.6i
i
y
,
5
1
190.2i i
i
x y
, 5 2
1
10.70i
i
y y
, 10 3.16 ,
相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x y nxy
r
x x y y
,样本 , 1,2,...,i ix y i n 的最小二乘估计公式
为 1
22
1
n
i i
i
n
i
i
x y nxy
b
x nx
, a y bx $ $ .
【试题来源】2020 年高考数学(文)母题题源解密(全国Ⅱ专版)
【答案】(1)详见解析;(2) 3.36 25y x ;预测 2014 年成立的企业中倒闭企业所占
比例为 4.84%
【分析】(1)由题意计算出相关的数据,代入公式即可得 0.99r ,由相关系数的意义即
可得解;(2)由题意求出所需数据,代入公式求得b 、 a 后,即可求得线性回归方程,代入
6x 即可预测 2014 年成立的企业中倒闭企业所占比例.
【解析】(1)由表中数据及参考数据可得 1 2 3 4 5 35x ,
5 2 2 2 2 2 2
1
1 3 2 3 3 3 4 3 5 3 10i
i
x x
,
5 2
1
10.70i
i
y y
,
5
1
190.2i i
i
x y
,由
5
1
74.6i
i
y
可得
5
1 14.925
i
i
y
y
,
所以
5
1
5 190.2 5 3 14.92 33.6i i
i
x y xy
,
所以
5
1
5 52 2
1 1
33.6 0.9910.70 3.16
i i
i
i i
i i
x y nxy
r
x x y y
,
因为 y 与 x 的相关系数近似为 0.99 ,说明 y 与 x 的相关程度很高,
从而可以用线性回归模型拟合 y 与 x 的关系;
(2)由题意
5
2 2 2 2 2 2
1
1 2 3 4 5 55i
i
x
,
再结合(1)中数据可得
5
1
5 22
1
5 33.6 3.3655 5 95
i i
i
i
i
x y xy
b
x x
,
则 14.92 3.36 3 25a y bx ,
所以 y 关于 x 的回归方程为 3.36 25y x ;
当 6x 时, 3.36 6 25 4.84y ,
所以预测 2014 年成立的企业中倒闭企业所占比例为 4.84% .
【名师点睛】本题考查了相关系数的求解与应用,考查了线性回归方程的求解与应用,保证
运算的正确性是解决这类问题的关键,属于中档题.
10.个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的
所得征收的一种所得税我国在1980年9月10日,第五届全国人民代表大会第三次会议通过
并公布了《中华人民共和国个人所得税法》公民依法诚信纳税是义务,更是责任现将自 2013
年至 2017 年的个人所得税收入统计如下:
年份 2013 2014 2015 2016 2017
时间代号 x 1 2 3 4 5
个税收入 y (千亿元) 6.53 7.38 8.62 10.09 11.97
并制作了时间代号 x 与个人所得税收入的如如图所示的散点图:
根据散点图判断,可用① nxy me 与② 2y px q 作为年个人所得税收入 y 关于时间代号
x 的回归方程,经过数据运算和处理,得到如下数据:
x y z w 5 2
1
i
i
x x
5 2
1
i
i
w w
3 8.92 2.16 11 10 374
5
1
i i
i
x x z z
5
1
i i
i
w w y y
1.60 83.83
表中 lnz y , 2w x ,
5
1
1 ln5 i
i
z y
,
5
2
1
1
5 i
i
w x
,参考数据: 1.48 5.37e , 0.96 2.61e .
以下计算过程中四舍五入保留两位小数.
(1)根据所给数据,分别求出①、②中 y 关于 x 的回归方程;
(2)已知 2018 年个人所得税收人为13.87 千亿元,用 2018 年的数据验证(1)中所得两
个回归方程,哪个更适宜作为 y 关于时间代号 x 的回归方程?
(3)你还能从统计学哪些角度来进一步确认哪个回归方程更适宜?(只需叙述,不必计算)
附:对于一组数据 1 1,u v 、 2 2,u v 、 、 ,n nu v ,其回归直线 v a u 的斜率和截距
的最小二乘估计分别为
1
2
1
n
i i
i
n
i
i
u u v v
u u
, v u .
【试题来源】山东省聊城市 2020 届高三高考数学模拟试题(二)
【答案】(1) 0.165.37 xy e ; 26.5 0.22y x ;(2) 0.165.37 xy e ;
【分析】(1)在等式 nxy me 的两边同时取自然对数,可得ln lny nx m ,令 lnz y ,
利用最小二乘法可得出 z 关于 x 的回归直线方程,进一步可得出 y 关于 x 的回归方程,令
2w x ,结合表格中的数据,利用最小二乘法可得出 y 关于 w 的回归方程,进一步可得出 y
关于 x 的回归方程;
(2)将 2018 年对应的时间代号 6x ,分别代入①②对应的回归方程,求得 y 的预测值,
确定最接近实际个人所得税收入的回归模型,由此可得出最适宜的回归方程;
(3)数据较少,故应增加数据建立方程组,再从残差及相关指数 2R 来检验拟合效果.
【解析】(1)对于①,由 nxy me ,等式两边取自然对数得ln lny nx m ,设 lnz y ,
lnr m ,由表中的数据可得
5
1
5 2
1
1.60ˆ 0.1610
i i
i
i
i
x x z z
n
x x
,
2.16 0.16 3 1.68r z nx ,即 ln m r ,可得 0.16 5.37rm e e ,
所以, z 关于 x 的线性回归方程为 0.16 1.68z x ,即 0.165.37 xy e .
对于②,由 2y px q ,设 2w x ,
由表格中的数据可得
5
1
5 2
1
83.83 0.2237
ˆ
4
i i
i
i
i
w w y y
p
w w
,
8.92 0.ˆ ˆ 22 11 6.5q y pw ,
所以 y 关于 x 的回归方程为 20.22 6.5y x ;
(2) 2018 年对应的时间代号为 6x ,代入①中的回归方程可得 0.965.37 14y e .
将 6x 代入②中的回归方程可得 20.22 6 6.5 14.42y .
而当 6x 时,实际个人所得税收入为13.87 千亿元,
故回顾方程 0.165.37 xy e 较为适宜;
(3)从统计学分析,这里从 5组数据建立回归方程,数据较少,故应增加数据建立方程,
再从残差及相关指数 2R 来检验拟合效果.
11.2019 年的“金九银十”变成“铜九铁十”,国各地房价“跳水”严重,但某地二手房交易却“逆
市”而行.如图是该地某小区 2018 年 11 月至 2019 年 1 月间,当月在售二手房均价(单位:
万元 / 平方米)的散点图.(图中月份代码 1~13 分别对应 2018 年 11 月~2019 年 11 月)
根据散点图选择 y a b x 和 lny c d x 两个模型进行拟合,经过数据处理得到两个回
归方程分别为 0.9369 0.0285y x 和 0.9554 0.0306lny x ,并得到以下一些统计
量的值:
0.9369 0.0285y x 0.9554 0.0306lny x
13 2
1
i i
i
y y
0.000591 0.000164
13 2
1
i
i
y y
0.006050
(1)请利用相关指数 2R 判断哪个模型的拟合效果更好;
(2)某位购房者拟于 2020 年 4 月购买这个小区 (70 160)m m 平方米的二手房(欲购房
为其家庭首套房).
若购房时该小区所有住房的房产证均已满 2 但未满 5 年,请你利用(1)中拟合效果更好的
模型解决以下问题:
(1)估算该购房者应支付的购房金额;(购房金额 房款 税费,房屋均价精确到 0.001
万元 / 平方米)
(2)若该购房者拟用不超过 100 万元的资金购买该小区一套二手房,试估算其可购买的最
大面积.(精确到 1 平方米)
附注:根据有关规定,二手房交易需要缴纳若干项税费,税费是按房屋的计税价格(计税价
格 房款)进行征收的.
房产证满 2 年但未满 5 年的征收方式如下:首套面积 90 平方米以内(含 90 平方米)为1% ;
首套面积 90 平方米以上且 140 平方米以内(含 140 平方米)1.5% ;首套面积 140 平方米
以上或非首套为 3% .
参考数据:ln 2 0.69 ,ln3 1.10 ,ln17 2.83 ,ln19 2.94 , 2 1.41 , 3 1.73 ,
17 4.12 , 19 4.36 .
参考公式:相关指数
2
2 1
2
1
1
n
i i
i
n
i
i
y y
R
y y
.
【试题来源】吉林省通化市 2020 届高三高考数学(理)六模试题
【答案】(1)模型二拟合效果好;(2)(1)2020 年 4 月份二手房均价的预测值为 1.044(万
元 / 平方米);(2)最大面积为 94 平方米;
【分析】(1)根据相关指数 2R 的意义,通过简单估算即可解决问题;(2)( )i 通过散点图确
定 2020 年 4 月对应的 x 的取值,代入(1)中拟合效果更好的模型,并利用参考数据求出二
手房均价的预测值,通过阅读税收征收方式对应的图表信息,选择有用的信息,进行合理分
类建立正确的函数模型,便能顺利求解;( )ii 先直观估算 100 万可购买的最大面积的大致范
围,再利用 ( )i 中相应的结论求解.
【解析】(1)模型一中, ˆ 0.9369 0.0285y x 的残差平方和为 0.000591,
相关指数为 0.0005911 0.9230.006050
;
模型二中, ˆ 0.9554 0.0306y lnx 的残差平方和为 0.000164,
相关指数为 0.0001641 0.9730.006050
;相关指数较大的模型二拟合效果好些;
(2)通过散点图确定 2020 年 4 月对应的 18x ,
代入(1)中拟合效果更好的模型二,代入计算
0.9554 0.0306ˆ 18y ln 0.9554 0.0306 ( 2 2 3)ln ln
0.9554 0.0306 (0.69 2 1.10) 1.044 (万元 / 平方米);
则 2020 年 4 月份二手房均价的预测值为 1.044(万元 / 平方米);
( )i 设该购房者应支付的购房金额 h 万元,因为税费中买方只需缴纳契税,
①当 70 90m 时,契税为计税价格的1% ,
故 1.044 (1% 1) 1.05444h m m ;
②当90 144m 时,契税为计税价格的1.5% ,
故 1.044 (1.5% 1) 1.05966h m m ;
③当144 160m 时,契税为计税价格的 3% ,
故 1.044 (3% 1) 1.07532h m m ;
1.05444 ,70 90
1.05966 ,90 144
1.07532 ,144 160
m m
h m m
m m
;
当 70 90m 时购房金额为1.05444m万元,
当90 144m 时购房金额为1.05966m万元,
当144 160m 时购房金额为1.07532m万元;
( )ii 设该购房者可购买该小区二手房的最大面积为t 平方米,
由 ( )i 知,当 70 90m 时,应支付的购房金额为1.05444t ,
又1.05444 1.05444 90 100t ;
因为房屋均价约为 1.044 万元 / 平方米,所以 100t ,所以 90 100t ,
由1.05966 100t ,解得 100
1.05966t ,且 100 94.41.05966
,
所以该购房者可购买该小区二手房的最大面积为 94 平方米.
【名师点睛】本题以购房问题为背景,以散点图、相关指数 2R 为载体,考查回归分析、数
据处理能力、推理论证能力、运算求解能力和应用意识,属于中档题.
12.2020 年初,武汉出现新型冠状病毒肺炎疫情,并快速席卷我国其他地区,口罩成了重
要的防疫物资.某口罩生产厂不断加大投入,高速生产,现对其 2 月 1 日~2 月 9 日连续 9
天的日生产量 iy (单位:十万只, 1,2, ,9i )数据作了初步处理,得到如图所示的散点
图及一些统计量的值:
y z
9
1
i i
t
t y
9
1
i i
t
t z
2.72 19 139.09 1095
注:图中日期代码 1~9 分别对应 2 月 1 日~2 月 9 日;表中 iy
iz e ,
9
1
1
9 i
i
z z
.
(1)从 9 个样本点中任意选取 2 个,在 2 个点的日生产量都不高于三十万只的条件下,求
2 个都高于二十万只的概率;
(2)由散点图分析,样本点都集中在曲线 lny bt a 的附近,请求 y 关于 t 的方程
lny bt a ,并估计该厂从什么时候开始日生产量超过四十万只.
参考公式:回归直线方程是 v ,
1 1
2 22
1 1
n n
i i i i
i i
n n
i i
i i
v v v n v
n
,
v .参考数据: 4e 54.6 .
【试题来源】 2020 届高三下学期适应性月考九(理)
【答案】(1) 3
10
;(2) ln 4 1y t ,从 2 月 14 日开始日生产量超过四十万只.
【分析】(1)设出事件,利用条件概率的概率公式即可求出概率.
(2)由 lny bt a ,可得 ye bt a ,即 z bt a ,利用已知数据求出b 、 a 的值,
再 yz e bt a ,两边同时求导即可.
【解析】(1)9 个样本点中日生产量都不高于三十万只的有 5 个,高于二十万只且不高于三
十万只的有 3 个,
设事件 A:所取 2 个点的日生产量都不高于三十万只,
事件 B:所取 2 个点的日生产量高于二十万只,
事件 AB :所取 2 个点的日生产量高于二十万只且不高于三十万只,
则
2
5
2
9
5
18
CP A C
,
2
3
2
9
1
12
CP AB C
,
3
10
P ABP B A P A
.
(2) lny bt a , yz e bt a , 5t ,
9
2
1
285i
i
t
,
9 9
1 1
9 92 22
1 1
2
i i i i i i
i i
i i i
i i
t t z z t z t z z t t z
b
t t t t t t
9
1
9 222
1
9 1095 9 5 19 4285 9 59
i i
i
i
i
t z t z
t t
,
19 4 5 1a z bt , ln 4 1y t .
令 ln 4 1 4t ,解得
4 1 13.94
et ,
14t ,即该厂从 2 月 14 日开始日生产量超过四十万只.
13.近年来,随着互联网的发展,诸如“滴滴打车”“神州专车”等网约车服务在我国各:城市
迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在
M 省的发展情况, M 省某调查机构从该省抽取了5个城市,分别收集和分析了网约车的
,A B 两项指标数 , 1,2,3,4,5i ix y i ,数据如下表所示:
城市 1 城市 2 城市 3 城市 4 城市 5
A指标数 x 2 4 5 6 8
B 指标数 y 3 4 4 4 5
经计算得 5 52 2
1 1
2 5, 2i i
i i
x x y y
(1)试求 y 与 x 间的相关系数 r ,并利用 r 说明 y 与 x 是否具有较强的线性相关关系(若
0,75r ,则线性相关程度很高,可用线性回归模型拟合);
(2)立 y 关于 x 的回归方程,并预测当 A指标数为 7 时, B 指标数的估计值.
附:相关公式:
1
5 52 2
1 1
n
i i
i
i i
i i
x x y y
r
x x y y
,
1
2
1
,
n
i i
i
n
i
i
x x y y
b a y bx
x x
参考数据: 0.3 0.55, 0.9 0.95
【试题来源】山西省运城市 2019-2020 学年高三下学期调研测试(文)
【答案】(1)0.95, y 与 x 具有较强的线性相关关系(2)估计值为 4.6
【分析】(1)直接利用公式计算得到 0.95r ,得到答案.
(2)计算得到回归方程为 3 5
10 2y x ,代入数据计算得到答案.
【解析】 1 2 4 5 6 8 55x , 3 4 4 4 5 45y , 5
1
6i i
i
x x y y
,
相关系数
5
1
5 52 2
1 1
6 9 0.95102 5 2
i i
i
i i
i i
x x y y
r
x x y y
,
因为 0.75r ,所以 y 与 x 具有较强的线性相关关系,可用线性回归模型拟合 y 与 x 的关系.
(2)由 1 可知,
5
1
5 2
1
6 3
20 10
i i
i
i
i
x x y y
b
x x
, 3 54 510 2a y bx ,
所以 y 与 x 之间线性回归方程为 3 5
10 2y x ,当 7x 时, 3 57 4.610 2y .
当 A指标数为 7 时, B 指标数的估计值为 4.6 .
14.某省电视台为了解该省卫视一档成语类节目的收视情况,抽查东西两部各5个城市,得
到观看该节目的人数(单位:千人)如下茎叶图所示:
其中一个数字被污损.
(1)求东部各城市观看该节目观众平均人数超过西部各城市观看该节目观众平均人数的概
率;
(2)随着节目的播出,极大激发了观众对成语知识的学习积累的热情,从中获益匪浅.现
从观看该节目的观众中随机统计了 4 位观众的周均学习成语知识的时间(单位:小时)与年龄
(单位:岁),并制作了对照表(如下表所示)
年龄 x(岁) 20
30
40 50
周均学习成语知识时间 y(小时) 2.5 3 4 4.5
由表中数据,试求线性回归方程 ˆˆ ˆy bx a ,并预测年龄为 50岁观众周均学习成语知识时
间.参考公式:
2 2
ˆ
n
i i
i i
n
i
i i
x y nxy
b
x nx
, ˆˆa y bx .
【试题来源】内蒙古通辽市 2020-2021 学年高三上学期第一次月考(理)
【答案】(1) 4
5
;(2)详见解析.
【解析】(1)设被污损的数字为 a ,则 a 的所有可能取值为 0 ,1,2 ,3,4 ,5,6,7 ,
8 , 9 共10 种等可能结果,令 88 89 90 91 92 83 83 87 90 99a ,解得
8a ,则满足“东部各城市观看该节目观众平均人数超过西部各城市观看该节目观众平均人
数的” a 的取值有 0 ,1, 2 ,3, 4 ,5, 6, 7 共8 个,所以其概率为 8 4
10 5P .
(2)由表中数据得
4
1
525i i
i
x y
, 35x , 3.5y ,
4
2
1
5400i
i
x
,所以 ˆ 7
100b ,
ˆ 21
20a .线性回归方程为 7 21
100
ˆ
20y x .可预测年龄为50观众周均学习成语知识时间为
4.55 小时.
15. 2019 年12 月 27 日,国家统计局公布全国规模以上工业企业月累计营业收入利润率数
据如表:
月份累计
1~ 2
月
1~ 3
月
1~ 4
月
1~ 5
月
1 ~ 6
月
1~ 7
月
1~ 8
月
1 ~ 9
月
1~ 10
月
1~11
月
月份累计
代码 x
1 2 3 4 5 6 7 8 9 10
营业收入
利 润 率
%y
4.79 5.31 5.52 5.72 5.86 5.87 5.87 5.91 5.85 5.91
(1)根据表中有关数据请在下图中补充完整 y 与 x 的折线图,判断 ˆy a bx 与
y c d x 哪一个更适宜作为 y 关于 x 的回归方程类型,并说明理由;
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程(系数精确到 0.01);
(3)根据(2)得出的回归方程,预测1 ~ 12 月月累计营业收入利润率 % 的值为多少?
参考公式:对于一组数据 1 1,u v 、 2 2,u v 、 、 ,n nu v ,其回归直线 ˆu u 的斜率
和截距的最小二乘估计分别为
1
2
1
ˆ
n
i i
i
n
i
i
u u v v
u u
, v u .
参考数据:
x y w
10 2
1
i
i
x x
10 2
1
i
i
w w
10
1
i i
i
x x y y
10
1
i i
i
w w y y
5.50 5.66 2.25 82.50 4.52 8.14 2.07
表中 i iw x ,
10
1
1
10 i
i
w w
, 11 3.32 .
【试题来源】陕西省部分学校 2020-2021 学年高三上学期摸底检测(文)
【答案】(1)折线图见解析, y c d x 更适宜,理由见解析;(2) 4.63 0.46y x ;
(3) 6.16
【分析】(1)描点、连成折线,观察折线的形状可得出合适的回归模型;(2)令 w x ,
将参考数据代入最小二乘法公式,求得 d$ 、c 的值,可求得 y 关于 x 的回归方程;(3)将 11x
代入回归方程可求得结果.
【解析】(1)补充完整的折线图如下,可知选用 ˆˆ ˆy c d x 更适宜.理由:根据折线图知
折线的形状更接近 y c d x 的图象.
(2)令 w x ,先建立 y 关于 w 的线性回归方程.
10
1
10 2
1
2.07ˆ 0.464.52
i i
i
i
i
w w y y
d
w w
, 5.66 0.46 2.25 4.63c y dw ,
y 关于 w 的线性归方程为 4.63 0.46y w , y 关于 x 的回归方程为 4.63 0.46y x ;
(3)由(2)可知,当 11x 时, 4.63 0.46 3.32 6.16y ,
因此,预测1 ~ 12 月月累计营业收入利润率 的值为 6.16 .
16.近年来,随着互联网的发展,“共享汽车”在我国各城市迅猛发展,为人们出行提供了便
利,但也给城市交通管理带来了一些困难.为掌握“共享汽车”在 M 省的发展情况, M 省
某调查机构从该省抽取了 5 个城市,分别收集和分析了“共享汽车”的 A,B 两项指标数 ix ,
1,2,3,4,5iy i ,数据如下表所示:
城市 1 城市 2 城市 3 城市 4 城市 5
A指标数 x 4 6 2 8 5
B 指标数 y 4 4 3 5 4
经计算得 5 2
1
2 5i
i
x x
, 5 2
1
2i
i
y y
.
(1)试求 y 与 x 间的相关系数 r ,并利用 r 说明 y 与 x 是否具有较强的线性相关关系(若
0.75r ,则线性相关程度很高,可用线性回归模型拟合);
(2)建立 y 关于 x 的回归方程,并预测当 A指标数 x 为 7 时, B 指标数 y 的估计值.
附:相关公式:
1
2 2
1
1 1
n
i i
i
n n
i
i i
x x y y
r
x x y y
,
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
, a y bx .
参考数据: 0.3 0.55 , 0.9 0.95 .
【试题来源】内蒙古赤峰市中原金科 2020-2021 学年高三大联考数学 (文) 试题
【答案】(1)相关系数 0.9r , y 与 x 有较强的线性相关关系;(2) 3 5
10 2y x ,估计
值 4.6 .
【分析】(1)先计算平均值,再代入相关系数公式计算并判断结果即可;
(2)利用公式求回归系数,写回归方程,再计算估计值即可.
【解析】(1)由已知,得 4 6 2 8 5 55x , 4 4 3 5 4 45y ,
所以相关系数
5
1
5 52 2
1 1
6 0.9 0.95 0.75
2 5 2
i i
i
i i
i i
x x y y
r
x x y y
,
所以 y 与 x 有较强的线性相关关系,可以用线性回归模型拟合 y 与 x 的关系;
(2)由(1)可知
5
1
5 2
1
6 3
20 10
i i
i
i
i
x x y y
b
x x
, 5
2a y bx ,
故 y 与 x 的线性回归方程为 3 5
10 2y x .
当 7x 时, 3 57 4.610 2y .
17.某项科研活动共进行了 5 次试验,其数据如下表所示:
特征量 第 1 次 第 2 次 第 3 次 第 4 次 第 5 次
x 2 5 8 9 11
y 12 10 8 8 7
(1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合 y 与 x
的关系?并指出是正相关还是负相关;
(2)求特征量 y 关于 x 的回归方程,并预测当特征量 x 为 12 时特征量 y 的值.
附:参考公式:相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
,
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
,
a y bx $ $ .参考数据: 2 1.414 .
【试题来源】云南师范大学附属中学 2021 届高考适应性月考卷(三)(文)
【答案】(1)可以用线性回归方程模型拟合 y 与 x 的关系,其关系为负相关;
(2) ˆ 0.56 12.92y x ,预测 6.2y .
【分析】(1)根据表格中的数据,分别求得 ,x y ,结合公式,求得 r 的值,即可得到结论;
(2)由(1)知,根据公式求得 ˆ 0.56b ,进而求得 ˆa ,得出回归直线的方程,代入 12x ,
即可得到预测值.
【解析】(1)由题意,可得
5
1
1 35 75 5i
i
x x
,
5
1
1 45 95 5i
i
y y
,
5 5
1 1
( )( ) 5 2 12 5 10 8 8 9 8 11 7 5 7 9 28i i i i
i i
x x y y x y x y
,
5
2
1
( ) 50i
i
x x
,
5
2
1
( ) 16i
i
y y
,
因而相关系数 1
2 2
1 1
( ) ( ) 28 7 0.99
50 16 5 2( ) ( )
n
i i
i
n n
i i
i i
x x y y
r
x x y y
.
由于| | 0.99r 很接近 1,
说明 x,y 线性相关性很强,因而可以用线性回归方程模型拟合 y 与 x 的关系.
由于 0r ,故其关系为负相关.
(2)由(1)知, 1
2
1
( ) ( ) 28ˆ 0.5650( )
n
i i
i
n
i
i
x x y y
b
x x
,
则 ˆˆ 9 ( 0.56) 7 12.92a y bx ,则所求的回归方程是 ˆ 0.56 12.92y x ,
当 12x 时,可预测特征量 ˆ 0.56 12 12.92 6.2y .
【名师点睛】求解回归直线方程的基本步骤:
(1)依据一般数据画出散点图,确定两个变量具有线性相关关系;
(2)计算 2
1 1
, , ( ) ( ), ( )
n n
i i i
i i
x y x x y y x x
的值;
(3)计算回归系数 ˆˆ,a b ;
(4)写出回归直线方程 ˆˆ ˆy bx a .
18.近年来,“双 11”网购的观念逐渐深入人心.某人统计了近 5 年某网站“双 11”当天的交易
额,,统计结果如下表:
年份 2015 2016 2017 2018 2019
年份代码 x 1 2 3 4 5
交易额 y/百亿元 9 12 17 21 26
(1)请根据上表提供的数据,用相关系数 r 说明 y 与 x 的线性相关程度,线性相关系数保
留三位小数.(统计中用相关系数 r 来衡量两个变量之间线性关系的强弱.若相应于变量 x 的
取值 ix ,变量 y 的观测值为 iy (1 i n ),则两个变量的相关系数的计算公式为.统计学认
为,对于变量 ,如果 1, 0.75r ,那么负相关很强;如果 0.751r , ,那么正相
关 很 强 ; 如 果 0.75, 0.30r 或 0.30,0.75r , 那 么 相 关 性 一 般 ; 如 果
0.25,0.25r ,那么相关性较弱);
(2)求出关于 x 的线性 y 回归方程,并预测 2020 年该网站“双 11”当天的交易额.
参考公式: 1
2
1
( )( )
( )
ˆ
n
i i
i
n
i
i
x x y y
b
x x
, ˆˆa y bx ;参考数据: 1860 43.1 .
【试题来源】2021 年新高考数学一轮复习讲练测
【答案】(1)0.998;变量 y 与 x 的线性相关程度很强;(2) ˆ 4.3 4.1y x ;29.9 百亿元.
【分析】(1)直接将数据代入公式计算,即可得答案;(2)利用最小二乘法求得 y 关于 x 的
线性回归方程为 ˆ 4.3 4.1y x ,再将 6x 代入,即可得答案;
【解析】(1)由题意,根据表格中的数据,
可得 1 (1 2 3 4 5) 35x , 1 (9 12 17 21 26) 175y ,
则
1
( )( ) (1 3)(9 17) (5 3)(26 17) 43
n
i i
i
x x y y
,
2 2
1 1
( ) ( ) 10 186 43.1
n n
i i
i i
x x y y
,
所以 1
2 2
1 1
( )( ) 43 0.99843.1
( ) ( )
n
i i
i
n n
i i
i i
x x y y
r
x x y y
所以变量 y 与 x 的线性相关程度很强.
(2)由(1)可得 3x , 17y ,
1
( )( ) 43
n
i i
i
x x y y
,
又由 2 22
1
2 2 2(1 3) (2 3) (3( 3) (4 3) (5 3) 1) 0
n
i
i
x x
,
所以 1
2
1
( )( ) 43 4.30)
ˆ
1(
n
i i
i
n
i
i
x x y y
b
x x
,则 ˆˆ 17 4.3 3 4.1a y bx ,
可得 y 关于 x 的线性回归方程为 ˆ 4.3 4.1y x
令 6x ,可得 ˆ 4.3 6 4.1 29.9y ,
即 2020 年该网站“双 11”当天的交易额 29.9 百亿元.
19.打好脱贫攻坚战,稳步实施乡村振兴,离不开农村基层党组织的坚强战斗堡垒作用的发
挥.某村村党支部书记为改良盐碱地土壤,从省城请来专家进行技术指导,并从某农业大学
引进富硒草莓.功夫不负有心人,富硒草莓种植成功,村里建起了草莓采摘园,到了年底,
种植草莓的收入连同合作社的其他经营项目一起,成了贫困户的主要经济来源.该村对近几
年草莓的采摘价格和采摘人数情况进行了统计,发现草莓的采摘价格 x (元/斤)和采摘人
数 y (千人)的关系如下表:
草莓采摘价格 x (元/斤) 20 25 30 35 40
采摘人数 y (千人) 58 52 45 32 28
(1)试根据上表中的数据求出 y 与 x 的相关系数 r ,并判断 y 与 x 线性相关性的强弱
( 410 20.25 ).
(2)(i)求出 y 关于 x 的线性回归方程 y bx a $ $ $ ;
(ii)该村根据 2020 年草莓的产量,估计约需 37 千人采摘,那么 2020 年草莓的采摘价格应
定为多少元/斤?(结果保留整数)
参考公式:相关系数
1
2 2
1 1
n
i i
i
n n
i i
i i
x x y y
r
x x y y
;
回归直线方程 y bx a $ $ $ 中斜率和截距的最小二乘估计公式分别为
1
2
1
n
i i
i
n
i
i
x x y y
b
x x
,
a y bx $ $ .
【试题来源】普通高等学校招生国统一考试 2020-2021 学年高三上学期数学(文)考向卷(三)
【答案】(1) 0.988r ;变量 x , y 的线性相关性很强;(2)(1) 1.6 91y x ;(2)
34 元/斤.
【分析】(1)根据相关系数公式分别求出所需值即可求出,并判断;
(2)(i)根据公式直接计算出b 和 a 即可得出回归方程;(ii)将 37y 代入即可求得.
【解析】(1)由表格数据,得 20 25 30 35 40 305x ,
58 52 45 32 28 435y ,
所以
1
400
n
i i
i
x x y y
, 2
1
250
n
i
i
x x
, 2
1
656
n
i
i
y y
,
所以
1
2 2
1 1
400
250 656
n
i i
i
n n
i i
i i
x x y y
r
x x y y
400 400 0.98840520 410
,
因为 0.988r 很接近 1,所以变量 x , y 的线性相关性很强.
(2)(i)由题得
1
2
1
400 1.6250
n
i i
i
n
i
i
x x y y
b
x x
,
43 1.6 30 91a ,
所以 y 关于 x 的线性回归方程为 1.6 91y x .
(ii)由(i)可知,若 37y ,则由37 1.6 91x ,解得 33.75 34x ,
即 2020 年草莓的采摘价格应定为 34 元/斤.
【名师点睛】对于利用“最小二乘法”求回归方程,计算是这类问题的难点,需要根据题目中
提供的数据进行分析,从而求解回归方程 y bx a $ $ $ ,其中求b 是问题的关键,计算出b 后,
可以将样本点的中心 ,x y 代入方程求解出 a .
20.我国为全面建设社会主义现代化国家,制定了从 2021 年到 2025 年的“十四五”规划.某
企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了
解年研发资金投入额 x (单位:亿元)对年盈利额 y (单位:亿元)的影响,研究了“十二
五”和“十三五”规划发展期间近 10 年年研发资金投入额 ix 和年盈利额 iy 的数据.通过对比
分析,建立了两个函数模型:① 2y x ,② x ty e ,其中 , , ,t 均为常数,
e 为自然对数的底数.令 2
i iu x , ln 1,2, ,10i iv y i ,经计算得如下数据:
x y
10 2
1
i
i
x x
10 2
1
i
i
y y
u v
26 215 65 2 680 5.36
10 2
1
i
i
u u
10
1
i i
i
u u y y
10 2
1
i
i
v v
10
1
i i
i
x x v v
11250 130 2.6 12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(ⅰ)根据(1)的选择及表中数据,建立 y 关于 x 的回归方程;(系数精确到 0.01)
(ⅱ)若希望 2021 年盈利额 y 为 250 亿元,请预测 2021 年的研发资金投入额 x 为多少亿元?
(结果精确到 0.01)
附 : ① 相 关 系 数 1
2 2
1 1
( )( )
( ) ( )
n
i i
i
nn
i i
i i
x x y y
r
x x y y
, 回 归 直 线 ˆˆ ˆy a bx 中 :
1
2
1
( )( )
ˆ
( )
n
i i
i
n
i
i
x x y y
b
x x
, ˆˆa y bx
②参考数据: ln 2 0.693 , ln5 1.609 .
【试题来源】江苏省 G4(、常州中学、、)2020-2021 学年高三
上学期期末联考
【答案】(1)模型 x ty e 的拟合程度更好;(2)(ⅰ) 0.18 0.56ˆ xy e ;(ⅱ)27.56.
【分析】(1)通过换元,模型①写成 y u ,模型②两边取对数,写成 x t ,
根据参考数列,求两个方程的相关系数,再比较大小;(2)(ⅰ)由(1)可知选择 x ty e ,
化为 x t ,后根据公式求 ˆ 和 ˆt ,再换回 ,x y 求回归方程;(ⅱ)根据回归方程,令
250y ,求 x 的值.
【解析】(1)设 iu 和 iy 的相关系数为 1r , ix 和 iv 的相关系数为 2r ,
由题意,
10
1
1 10 102 2
1 1
130 13 0.871511250 2
i i
i
i i
i i
u u y y
r
u u y y
,
10
1
2 10 102 2
1 1
12 12 0.921365 2.6
i i
i
i i
i i
x x v v
r
x x v v
,
则 1 2r r ,因此从相关系数的角度,模型 x ty e 的拟合程度更好.
(2)(ⅰ)先建立 v 关于 x 的线性回归方程,由 x ty e ,得 ln y t x ,即 v t x ,
10
1
10 2
1
12ˆ
65
i i
i
i
i
x x v v
x x
,
12ˆˆ 5.36 26 0.5665t v x ,
所以 v 关于 x 的线性回归方程为 ˆ 0.18 0.56v x ,
所以 ˆln 0.18 0.56y x ,则 0.18 0.56ˆ xy e .
(ⅱ)2021 年盈利额 250y (亿元),
所以 0.18 0.56250 xe ,则 0.18 0.56 ln 250x ,
因为 ln 250 3ln5 ln 2 3 1.609 0.693 5.52 ,
所以 5.52 0.56 27.560.18x .
所以 2021 年的研发资金投入量约为 27.56 亿元.
21.近年来,共享单车进驻城市,绿色出行引领时尚.某公司计划对未开通共享单车的 A县
城进行车辆投放,为了确定车辆投放量,对过去在其他县城的投放量情况以及年使用人次进
行了统计,得到了投放量 x(单位:千辆)与年使用人次 y (单位:千次)的数据如下表所
示,根据数据绘制投放量 x 与年使用人次 y 的散点图如图所示.
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型 lg y a b x 或
指数函数模型 ( 0, 0) xy c d c d 对两个变量的关系进行拟合,请问哪个模型更适宜作
为投放量 x 与年使用人次 y 的回归方程类型(给出判断即可,不必说明理由),并求出 y 关
于 x 的回归方程;
(2)已知每辆单车的购入成本为 200 元,年调度费以及维修等的使用成本为每人次 0.2 元,
按用户每使用一次,收费1元计算,若投入8000 辆单车,则几年后可实现盈利?
参考数据:
y v
7
1
i i
i
x y
7
1
i i
i
x v
0.5410
62.14 1.54 2535 50.12 3.47
其中 lgi iv y ,
1
1
7
n
i
i
v v
.
参考公式:对于一组数据 1 1,u v , 2 2,u v ,…, ,n nu v ,其回归直线 ˆˆ ˆv a u 的斜率
和截距的最小二乘估计公式分别为 1
2 2
1
ˆ
n
i i
i
n
i
i
u v nu v
u nu
, ˆˆa v u .
【试题来源】河南省驻马店市 2020-2021 学年高三上学期期末考试(文)
【答案】(1) xy c d 适宜, 0.25ˆ 3.47 10 xy ;(2)6 年.
【分析】(1)由散点图可判断 xy c d 适宜,设 lg y v ,则 lg lgv c x d ,再根据参
考数据及公式即可得解;
(2)先将 8x 代入得年使用人次,进而可得收益和总投资比较大小即可得解.
【解析】(1)由散点图判断, xy c d 适宜作为投放量 x 与年使用人次 y 的回归方程类型.
由 xy c d ,两边同时取常用对数得 lg lg lg lgxy c d c x d .
设 lg y v ,则 lg lgv c x d .
因为 4x , 1.54v ,
7
2
1
140i
i
x
,
7
1
50.12
i i
i
x v ,
所以
7
1
7
2 2
1
7
lg
7
i i
i
i
i
x v x v
d
x x
2
50.12 7 4 1.54 7 0.25140 7 4 28
.
把 (4,1.54) 代入 lg lg v c x d ,得 lg 0.54c ,
所以 ˆ 0.54 0.25v x ,所以 ˆlg 0.54 0.25y x ,
则 0.54 0.25 0.25ˆ 10 3.47 10x xy ,
故 y 关于 x 的回归方程为 0.25ˆ 3.47 10 xy .
(2)投入8 千辆单车,则年使用人次为 0.25 83.47 10 347 千人次,
每年的收益为 347 (1 0.2) 277.6 (千元),
总投资8000 200 1600000 1600 千元,
假设需要 n 年开始盈利,则 277.6 1600 n ,即 5.76n ,
故需要 6年才能开始盈利.
22.某房产中介公司对 2018 年成都市前几个月的二手房成交量进行统计,y 表示 2018 年 x
月该中介公司的二手房成交量,得到统计表格如下:
ix 1 2 3 4 5 6 7 8
iy 12 14 20 22 24 20 26 30
(1)通过散点图初步分析可用线性回归模型拟合 y 与 x 的关系,请用相关系数加以说明;
(计算结果精确到 0.01);
(2)该房产中介为增加业绩,决定针对二手房成交客户开展抽奖活动,若抽中“一等奖”获
5 千元奖金;抽中“二等奖”获 3 千元奖金;抽中“祝您平安”,则没有奖金.已知一次抽奖活
动中获得“一等奖”的概率为 1
4
,获得“二等奖”的概率为 1
2
,现有甲、乙两个客户参与抽奖
活动,假设他们是否中奖相互独立,求此二人所获奖金总额 X (千元)的分布列及数学期
望.
参考数据:
8
1
850i i
i
x y
,
8
2
1
204i
i
x
,
8
2
1
3776i
i
y
, 21 4.58 , 31 5.57 .
参考公式:相关系数 1
2 22 2
1 1
n
i i
i
n n
i i
i i
x y n x y
r
x nx y ny
.
【试题来源】 2020-2021 学年高三下学期开学考试模拟(一)(理)试题
【答案】(1)答案见解析;(2)分布列见解析, 5.5E X 千元.
【分析】(1)首先计算 x 、 y 再将已知条件中所给的数据代入相关系数 r 的公式即可求解;
(2)奖金总额 X 的所有可能取值有 0,3,5,6,8,10 千元,分别求出对应的概率,列出
分布列、计算期望即可.
【解析】(1)依题意: 4.5x , 21y ,
8
1
8 8 2 22 22 2
1 1
8 850 8 4.5 21
204 8 4.5 3776 8 218 8
i i
i
i i
i i
x y xy
r
x x y y
94 94 94 0.924 4.58 5.5742 248 4 21 31
.
因为 0.92 非常趋近 1,所以变量 x , y 线性相关性很强,可用线性回归模型拟合 y 与 x 的
关系.
(2)二人所获奖金总额 X 的所有可能取值有 0,3,5,6,8,10 千元.
1 1 10 4 4 16P X , 1 1 13 2 2 4 4P X , 1 1 15 2 4 4 8P X ,
1 1 16 2 2 4P X , 1 1 18 2 2 4 4P X , 1 1 110 4 4 16P X ,
所以,奖金总额 X 的分布列如下表:
X 0 3 5 6 8 10
P 1
16
1
4
1
8
1
4
1
4
1
16
1 1 1 1 1 10 3 5 6 8 10 5.516 4 8 4 4 16E X 千元.
【名师点睛】求离散型随机变量的分布列及期望的一般步骤:(1)根据题中条件确定随机变
量的可能取值;(2)求出随机变量所有可能取值对应的概率,即可得出分布列;(3)根据期
望的概念,结合分布列,即可得出期望(在计算时,要注意随机变量是否服从特殊的分布,
如超几何分布或二项分布等,可结合其对应的概率计算公式及期望计算公式,简化计算).