二轮大题专练 51—随机变量的分布列(相关关系)
1.魔方(Rubik'sCube),又叫鲁比克方块,最早是由匈牙利布达佩斯建筑学院厄尔诺•鲁比
克(RubikErnő)教授于 1974 年发明的.魔方与华容道、独立钻石棋一起被国外智力专
家并称为智力游戏界的三大不可思议,而魔方受欢迎的程度更是智力游戏界的奇迹.通
常意义下的魔方,即指三阶魔方,为 3×3×3 的正方体结构,由 26 个色块组成.常规竞
速玩法是将魔方打乱,然后在最短的时间内复原.截至 2020 年,三阶魔方还原官方世界
纪录是由中国的杜宇生在 2018 年 11 月 24 日于芜湖赛打破的纪录,单次 3.475 秒.
(1)某魔方爱好者进行一段时间的魔方还原训练,每天魔方还原的平均速度 y(秒)与
训练天数 x(天)有关,经统计得到如下数据:
x(天) 1 2 3 4 5 6 7
y(秒) 99 99 45 32 30 24 21
现用 y=a+ 作为回归方程类型,请利用表中数据,求出该回归方程,并预测该魔方爱好
者经过长期训练后最终每天魔方还原的平均速度 y 约为多少秒(精确到 1)?
参考数据(其中 zi= ):
ziyi zi2﹣7× 2
184.5 0.37 0.55
参考公式:
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线 的斜率和截距
的最小二乘
估计公式分别为: = , = .
(2)现有一个复原好的三阶魔方,白面朝上,只可以扭动最外侧的六个表面.某人按规
定将魔方随机扭动两次,每次均顺时针转动 90°,记顶面白色色块的个数为 X,求 X 的
分布列及数学期望 E(X).
解:(1)由题意可知: ,
= ,
所以 a= ,
因此 y 关于 x 的回归方程为:y=13+ ,
所以最终每天魔方还原的平均速度 y 约为 13 秒;
(2)由题意可知:X 的可能取值为 3,4,6,9,
P(X=3)= ,P(X=4)= ,
P(X=6)= ,
P(X=9)= ,
所以 X 的分布列为:
X 3 4 6 9
P
数学期望为 E(X)=3× .
2.我国在芯片领域的短板有光刻机和光刻胶,某风投公司准备投资芯片领域.若投资光刻
机项目,据预期,每年的收益率为 30% 的概率为 p ,收益率为 10% 的概率为1 p ;若投
资光刻胶项目,据预期,每年的收益率为 30% 的概率为 0.4,收益率为 20% 的概率为 0.1,
收益率为零的概率为 0.5.
(1)已知投资以上两个项目,获利的期望是一样的,请你为该风投公司选择一个合理的项
目,并说明理由;
(2)若该风投公司准备对以上你认为比较合理的的项目进行投资,4 年累计投资数据如表:
年份 x 2016 2017 2018 2019
1 2 3 4
累计投资金额 y(单位:亿元) 2 3 5 6
请根据上表提供的数据,用最小二乘法求出 y 关于 的线性回归方程 ˆ ˆy b a ,并预测到
哪一年年末,该公司在芯片领域的投资收益预期能达到 0.75 亿元.
附 : 收 益 收 入 的 资 金 获 利 期 望 ; 线 性 回 归 方 程 ˆ ˆy bx a 中 ,
1 1
2 2 2
1 1
( )( )
( )
n n
i i i i
i i
n n
i i
i i
x x y y x y nxy
b
x x x nx
, ˆˆa y bx .
解:(1)若投资光刻机项目,设收益率为 1 ,则 1 的分布列为:
1 0.3 0.1
P p 1 p
所以 1 0.3 ( 0.1) (1 ) 0.4 0.1E p p p .
若投资光刻胶项目,设收益率为 2 ,则 2 的分布列为
2 0.3 0.2 0
P 0.4 0.1 0.5
所以 2 0.3 0.4 ( 0.2) 0.1 0 0.5 0.1E .
因为投资以上两个项目,获利的期望是一样的,
所以 0.4 0.1 0.1p ,所以 1
2p .
因为 2 2
1
1 1(0.3 0.1) ( 0.1 0.1) 0.042 2D ,
2 2 2
2 (0.3 0.1) 0.4 ( 0.2 0.1) 0.1 (0 0.1) 0.5 0.03D ,
所以 1 2E E , 1 2D D ,
这说明虽然光刻机项目和光刻胶项目获利相等,但光刻胶项目更稳妥.
综上所述,建议该风投公司投资光刻胶项目;
(2) 1 2 3 4 2.54
, 2 3 5 6 44y ,
4
1
1 2 2 3 3 5 4 6 47i i
i
y
,
4
2 2 2 2 2
1
1 2 3 4 30i
i
,
则 1
2
2 2
1
47 4 2.5 4ˆ 1.430 4 2.5
n
i i
i
n
i
i
y n y
b
n
, ˆˆ 4 1.4 2.5 0.5a y b ,
故线性回归方程为 ˆ 1.4 0.5y .
设该公司在芯片领域的投资收益为Y ,则 0.1 (1.4 0.5) 0.75Y
,
解得 5
,故在 2020 年年末该投资公司在芯片领域的投资收益可以超过 0.75 亿元.
3.为喜迎元旦,某电子产品店规定购买超过 5000 元电子产品的顾客可以参与抽奖活动,现
有甲品牌和乙品牌的扫地机器人作为奖品,从这两种品牌的扫地机器人中各随机抽取 6
台,检测它们充满电后的工作时长,相关数据见如表.(工作时长单位:分)
机器序号 1 2 3 4 5 6
甲品牌工作时长/
分
220 180 210 220 200 230
乙品牌工作时长/
分
200 190 240 230 220 210
(1)根据所提供的数据,分别计算抽取的甲、乙两种品牌的扫地机器人充满电后工作时
长的平均数与方差.
(2)从甲品牌被抽取的 6 台扫地机器人中随机抽出 3 台扫地机器人,记抽出的扫地机器
人充满电后工作时长不低于 220 分钟的台数为 X,求 X 的分布列与数学期望.
(3)如表是一台乙品牌扫地机器人的使用次数与充满电后工作时长的相关数据,求该扫
地机器人工作时长 y 与使用次数 x 之间的回归直线方程,并估计该扫地机器人使用第 200
次时充满电后的工作时长.
使用次数
x
20 40 60 80 100 120 140
工作时长
y/分
210 206 202 196 191 188 186
附: = , = .
解:(1)根据题意,计算甲的平均数为 = ×(220+180+210+220+200+230)=210,
乙的平均数为 = ×(200+190+240+230+220+210)=215,
甲的方差为
= ×[(220﹣210)2+(180﹣210)2+(210﹣210)2+(220﹣210)2+(200﹣210)
2+(230﹣210)2]= ,
乙的方差为
= ×[(200﹣215)2+(190﹣215)2+(240﹣215)2+(230﹣215)2+(220﹣215)
2+(210﹣215)2]= .
(2)由题意得 X 的可能取值为 0,1,2,3;
计算 P(X=0)= = ,P(X=1)= = ,
P(X=2)= = ,P(X=3)= = ,
所以 X 的分布列为:
X 0 1 2 3
P
计算数学期望为 E(X)=0× +1× +2× +3× = .
(3)由表中数据,计算 = ×(20+40+60+80+100+120+140)=80,
= ×(210+206+202+196+191+188+186)=197,
= = =﹣ ,
= =197﹣(﹣ )×80=214,
所以 y 与 x 之间的回归直线方程 =﹣ x+214,
x=200 时, =﹣ ×200+214=171.5,
所以估计该扫地机器人使用第 200 次时充满电后的工作时长 171.5 分钟.
4.某医疗专家组为了研究新冠肺炎病毒在特定环境下一周内随时间变化的繁殖情况,得到
如下的实验数据:
天数 t(天) 1 2 3 4 5 6 7
繁殖个数 y
(千个)
1 1 2 3 4 4 6
(1)由如表数据可知,可用线性回归模型拟合 y 与 t 的关系,求 y 关于 t 的线性回归方
程;
(Ⅱ)若由线性回归方程得到的估计数据与实验数据的误差不超过 0.5,则该实验数据是
“理想数据”,现从实验数据中随机抽取 3 个,求“理想数据”的个数 X 的分布列和数学
期望.
参 考 公 式 : 回 归 方 程 = t+ 中 斜 率 和 截 距 的 最 小 二 乘 估 计 公 式 分 别 为 =
, = ﹣ .
解:(Ⅰ)由题意, , ,
, ,
∴ = ,
.
∴y 关于 t 的线性回归方程为 ;
(Ⅱ)由题意将估计数据与实验数据列表:
天 数 t
(天)
1 2 3 4 5 6 7
繁 殖 个
数
y(千个)
1 1 2 3 4 4 6
估 计 个
数
(千个)
3
由列表和题意可知该实验数据为“理想数据”的有 5 个,
故 X 的所有可能取值为 1,2,3.
P(X=1)= ,
P(X=2)= ,
P(X=3)= .
∴“理想数据”个数 X 的分布列为:
X 1 2 3
P
则 E(X)=1× .
5.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部
署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效某贫困县为了响应国家
精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关
系如表所示:
土地使用面积(单位:
亩)
1 2 3 4 5
管理时间(单位:月) 8 10 13 20 24
并调查了某村 300 名村民参与管理的意愿,得到的部分数据如表所示:
愿意参与管理 不愿意参与管理
男性村民 150 50
女性村民 50
(1)求出相关系数 r 的大小,并判断管理时间 y 与土地使用面积 x 是否线性相关?(保
留三位小数)
(2)是否有 99.9%的把握认为村民的性别与参与管理的意愿有关?
(3)若以该村的村民的性别与参与管理意愿的情况估计贫困县的情况,则从该贫困县中
任取 3 人,记取到愿意参与管理的男性村民的人数为 X,求 X 的分布列及数学期望.
参考公式及数据: , ,
其中 n=a+b+c+d, .
P(K2≥k0) 0.10 0.05 0.025 0.010 0.001
k0 2.706 3.841 5.024 6.635 10.828
解:(1)依题意: , ,
故 , , ,
则
故管理时间 y 与土地使用面积线性相关.
(2)依题意,女性村民中不愿意参与管理的人数是 50,计算得 k2 的观测值为
.
故有 99.9%的把握认为村民的性别与参与管理的意愿有关.
(3)依题意,X 的可能取值为 0,1,2,3,
从该贫困县中随机抽取一名,则取到愿意参与管理的男性村民的概率为 .
,
,
,
,
故 x 的分布列为:
X 0 1 2 3
P
则数学期望为 .
6.临近春节,各商场纷纷举行大力度的优惠活动,某商场的“满减促销”活动吸引越来越
多的人前来消费,该商场的销售团队统计了活动刚推出 7 天内每一天进店消费的人次,
用 x 表示活动推出的天数,y 表示每天进店消费的人次(单位:人次).
(1)该销售团队分别用两种模型
①
y=c•dx,
②
y=a+bx(c,d 为大于零的常数)进行
拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图.根据残差图,比
较模型
①
、
②
的拟合效果,应选择哪个模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求 y 关于 x 的回归方程,并预测活动推出第 10 天进店消费的
人次;
参考数据:
100.77
65 1.63 2574 50.96 5.89
(3)根据(1)选择的模型按照某项指标测定,当残差 时,则称当天为
“消费正常日”.若从该影院开业的这 7 天中任选 3 天进行进一步的数据分析,记“消费
正常日”的天数 X,求 X 的分布列及期望.
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线 y=a+bx 的斜率和截
距的最小二乘法估计分别为 , .
解:(1)应该选择模型
①
.
(2)因为 y=c⋅ dx,两边取常用对数得 lgy=lg(c⋅ dx)=lgc+lgd⋅ x,
设 lgy=z,所以 z=lgc+lgd⋅ x.
因为 , ,
, ,
所以 ,
把样本数据中心点(4,1.63)代入 z=lgc+lgd⋅ x,得 lgc=0.87,
所以 ,
则 lgy=0.87+0.19x,所以 y 关于 x 的回归方程为 .
把 x=10 代入上式得: ,
故活动推出第 10 天进店消费的人次为 589.
(3)从残差图易知,7 天中有 5 天为“消费正常日”,X 的可能取值为 1,2,3.
,
,
,
所以 X 的分布列为:
X 1 2 3
P
故 X 的期望为 .