课时作业55 变量间的相关关系、统计案例一、选择题1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且=2.347x-6.423;②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493;④y与x正相关且=-4.326x-4.578.其中一定不正确的结论的序号是( D )A.①②B.②③C.③④D.①④解析:正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.2.下列说法错误的是( B )A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好解析:根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.二、填空题8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:气温(℃)181310-1用电量(度)24343864由表中数据得线性回归直线方程=x+中的=-2,预测当气温为-4℃时,用电量为68度.解析:回归直线过点(,),根据题意得==10,==40,将(10,40)代入=-2x+,解得=60,则=-2x+60,当x=-4时,=(-2)×(-4)+60=68,即当气温为-4℃时,用电量约为68度.
9.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手非生产能手总计25周岁以上25356025周岁以下103040总计3565100有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.解析:由2×2列联表可知,K2=≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.三、解答题10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:广告投入x(单位:万元)12345销售收益y(单位:万元)2327表中的数据显示,x与y之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y关于x的线性回归方程.解:(1)设各小长方形的宽度为m,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m=0.5m=1,故m=2.
(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5.(3)空白栏中填5.由题意可知,==3,==3.8,iyi=1×2+2×3+3×2+4×5+5×7=69,=12+22+32+42+52=55.根据公式可求得===1.2,=3.8-1.2×3=0.2,即线性回归方程为=1.2x+0.2.11.已知某产品连续4个月的广告费用为xi(i=1,2,3,4)千元,销售额为yi(i=1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x1+x2+x3+x4=18,y1+y2+y3+y4=14;②广告费用x和销售额y之间具有较强的线性相关关系;③回归直线方程=x+中的=0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B )A.3.5万元B.4.7万元C.4.9万元D.6.5万元解析:依题意得=4.5,=3.5,由回归直线必过样本中心点得a=3.5-0.8×4.5=-0.1.当x=6时,=0.8×6-0.1=4.7.12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一日期12345678910天气晴霾霾阴霾霾阴霾霾霾日期11121314151617181920天气阴晴霾霾霾霾霾霾阴晴日期21222324252627282930天气霾霾晴霾晴霾霾霾晴霾对于此种情况,该市政府为减少雾霾于次年采取了全年限行的政策.下表是一个调查机构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:
表二不限行限行总计没有雾霾a有雾霾b总计303060(1)请由表一中数据求a,b的值,并估计在该年11月份任取一天是晴天的概率;(2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P(K2≥k0)0.1000.0500.0100.001k02.7063.8416.63510.828(表中数据使用时四舍五入取整数)解:(a)a=10,b=20,所求概率P==.(2)设限行时有x天没有雾霾,则有雾霾的天数为30-x,由题意得K2的观测值k=≤3,代入数据化简得21x2-440x+1500≤0,x∈[0,30],x∈N*,即(7x-30)(3x-50)≤0,解得≤x≤,所以5≤x≤16,且x∈N*,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾.13.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:年份2011201220132014201520162017广告费支出x1246111319销售量y1.93.24.04.45.25.35.4(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:①广告费x=20时,销售量及利润的预报值是多少?②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线=+x的斜率和截距的最小二乘估计分别为==,=-.参考数据:≈2.24.解:(1)∵=8,=4.2,iyi=279.4,=708,∴===0.17,=-=4.2-0.17×8=2.84,∴y关于x的线性回归方程为=0.17x+2.84.(2)∵0.75