8.1.2 样本相关系数课标要求素养要求1.结合实例,会通过相关系数比较多组成对数据的相关性.2.了解样本相关系数与标准化数据向量夹角的关系.通过学习样本相关系数,提升数学抽象及数据分析素养.新知探究 散点图可以说明变量间有无线性相关关系,但无法量化两个变量之间的相关程度的大小,更不能精确地说明成对样本数据之间关系的密切程度,那么我们如何才能寻找到这样一个合适的量来对样本数据的相关程度进行定量分析呢?问题 若样本系数r=0.97,则成对样本数据的相关程度如何?提示 r=0.97,表明成对样本数据正线性相关程度很强.1.相关系数r的计算注意:相关系数是研究变量之间线性相关程度的量假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),对数据作进一步的“标准化处理”处理,用sx=,sy=分别除xi-和yi-(i=1,2,…,n,和分别为x1,x2,…,xn和y1,y2,…,yn的均值),得,,…,
,为简单起见,把上述“标准化”处理后的成对数据分别记为(x1′,y1′),(x2′,y2′),…,(xn′,yn′),则变量x和变量y的样本相关系数r的计算公式如下:r=(x1′y1′+x2′y2′+…+xn′yn′)=.2.相关系数r的性质(1)当r>0时,称成对样本数据正相关;当r0表明两个变量负相关B.r>1表明两个变量正相关C.r只能大于零
D.越接近于0,两个变量相关关系越弱解析 因r>0表明两个变量正相关,故A错误;又因r∈[-1,1],故B,C错误;两个变量之间的相关系数r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值越接近于0,表示两个变量之间几乎不存在线性相关,故D正确.答案 D2.(多选题)下面的各图中,散点图与相关系数r符合的是( )解析 因为相关系数r的绝对值越接近1,线性相关程度越高,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符合,A,C,D均符合.故选ACD.答案 ACD[微思考]当r=1或-1时,两个变量的相关性如何?提示 当r=1时,两个变量完全正相关;当r=-1时,两个变量完全负相关.题型一 线性相关性的检验【例1】 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩x(分)与入学后第一次考试的数学成绩y(分)如下:学生号12345678910x12010811710410311010410599108y84648468696869465771请问:这10名学生的两次数学成绩是否具有线性相关关系?解 =(120+108+…+99+108)=107.8,=(84+64+…+57+71)=68,x=1202+1082+…+992+1082=116584,
y=842+642+…+572+712=47384,xiyi=120×84+108×64+…+99×57+108×71=73796.所以相关系数为r=≈0.7506.由此可看出这10名学生的两次数学成绩具有线性相关关系.规律方法 利用相关系数r判断线性相关关系,需要应用公式计算出r的值,由于数据较大,需要借助计算器.【训练1】 假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:x23456y2.23.85.56.57.0已知x=90,y=140.78,xiyi=112.3.(1)求,;(2)对x,y进行线性相关性检验.解 (1)==4.==5.(2)xiyi-5=112.3-5×4×5=12.3,x-52=90-5×42=10,y-52=140.78-125=15.78,所以r=≈0.979.所以x与y之间具有很强的线性相关关系.
题型二 判断线性相关的强弱【例2】 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据.甲醛浓度x18202224262830缩醛化度(y)26.8628.3528.7528.8729.7530.0030.36求样本相关系数r并判断它们的相关程度.解 列表如下ixiyixyxiyi11826.86324721.4596483.4822028.35400803.722556732228.75484826.5625632.542428.87576833.4769692.8852629.75676885.0625773.562830.0078490084073030.36900921.7296910.80∑168202.9441445892.01364900.16==24,=,r==
≈0.96.由此可知,甲醛浓度与缩醛化度之间有很强的正线性相关关系.规律方法 当相关系数|r|越接近1时,两个变量的相关关系越强,当相关系数|r|越接近0时,两个变量的相关关系越弱.【训练2】 以下是收集到的新房屋的销售价格y(万元)和房屋的大小x(m2)的数据.房屋大小x/m211511080135105销售价格y/万元24.821.618.429.222(1)画出数据的散点图;(2)求相关系数r,并作出评价.解 (1)图略.(2)列表如下:ixiyixyxiyi111524.813225615.042852211021.612100466.56237638018.46400338.561472413529.218225852.643942510522110254842310∑545116609752756.812952==109,==23.2,r==
=≈0.96,由此可知,新房屋的销售价格和房屋的大小之间有很强的正线性相关关系.一、素养落地1.通过本节课的学习,进一步提升数学抽象及数据分析素养.2.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就可利用线性相关系数来判断.3.|r|越接近1,它们的散点图越接近一条直线,两个变量之间的相关关系越强.二、素养训练1.两个变量之间的相关程度越低,则其线性相关系数的数值( )A.越小B.越接近1C.越接近0D.越接近-1解析 由相关系数的性质知选C.答案 C2.给定y与x的一组样本数据,求得相关系数r=-0.690,则( )A.y与x线性不相关B.y与x正线性相关C.y与x负线性相关D.以上都不对解析 因为r=-0.6900,则x增大时,y也相应增大;②若|r|越趋近于1,则x与y的线性相关程度越强;
③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上.其中正确的有( )A.①②B.②③C.①③D.①②③解析 根据相关系数的定义,变量之间的相关关系可利用相关系数r进行判断:当r为正数时,表示变量x,y正相关;当r为负数时,表示两个变量x,y负相关;|r|越接近于1,相关程度越强;|r|越接近于0,相关程度越弱.故可知①②③正确.答案 D3.甲、乙、丙、丁四位同学各自对A,B两变量进行线性相关试验,并分别求得相关系数r如表:甲乙丙丁r0.820.780.690.85则这四位同学的试验结果能体现出A,B两变量有更强的线性相关性的是( )A.甲B.乙C.丙D.丁解析 由相关系数的意义可知,相关系数的绝对值越接近于1,相关性越强,结合题意可知,丁的线性相关性最强,故选D.答案 D4.对于相关系数r,下列结论正确的个数为( )①r∈[-1,-0.75]时,两变量负相关很强②r∈[0.75,1]时,两变量正相关很强③r∈(-0.75,-0.3]或[0.3,0.75)时,两变量相关性一般④r=0.1时,两变量相关性很弱A.1B.2C.3D.4解析 由相关系数的性质可知4个结论都正确.
答案 D5.对四对变量y和x进行线性相关检验,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.9533;②n=15,r=0.3012;③n=17,r=0.4991;④n=13,r=0.9950.则变量y和x线性相关程度最高的两组是( )A.①②B.①④C.②④D.③④解析 相关系数r的绝对值越接近于1,变量x,y的线性相关程度越高.答案 B二、填空题6.已知某个样本点中的变量x,y线性相关,相关系数r>0,平移坐标系,则在以(,)为坐标原点的坐标系下的散点图中,大多数的点都落在第__________象限.解析 因为r>0,所以大多数的点都落在第一、三象限.答案 一、三7.若已知(yi-)2是(xi-)2的4倍,(xi-)(yi-)是(xi-)2的1.5倍,则相关系数r的值为__________.解析 由r=,得r=.答案 8.部门所属的10个工业企业生产性固定资产价值x与工业增加值y资料如下表(单位:百万元):33566789910
固定资产价值工业增加值 15172528303637424045根据上表资料计算的相关系数为__________.解析 ==6.6.==31.5.∴r=≈0.9918.答案 0.9918三、解答题9.5个学生的数学和物理成绩如表:学生学科 ABCDE数学8075706560物理7066686462试用散点图和相关系数r判断它们是否有线性相关关系,若有,是正相关还是负相关?解 散点图法:涉及两个变量:数学成绩与物理成绩,可以以数学成绩为自变量,考察因变量物理成绩的变化趋势.以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图.由散点图可见,两者之间具有线性相关关系且是正相关.(相关系数r法)列表:
ixiyixyxiyi1807064004900560027566562543564950370684900462447604656442254096416056062360038443720∑350330247502182023190∴r===0.9>0.∴两变量具有相关关系且正相关.10.某火锅店为了了解营业额y(百元)与气温x(℃)之间的关系,随机统计并制作了某6天当天营业额与当天气温的对比表.气温/℃261813104-1营业额/百元202434385064画出散点图并判断营业额与气温之间是否具有线性相关关系.解 画出散点图如图所示.=(26+18+13+10+4-1)≈11.7,=(20+24+34+38+50+64)≈38.3,xiyi=26×20+18×24+13×34+10×38+4×50-1×64=1910,
x=262+182+132+102+42+(-1)2=1286,y=202+242+342+382+502+642=10172,由r=,可得r≈-0.98.由于|r|的值较接近1,所以x与y具有很强的线性相关关系.能力提升11.为考察两个变量x,y的相关性,搜集数据如下表,则两个变量的线性相关程度( )x510152025y103105110111114A.很强B.很弱C.无相关D.不确定解析 xi=75,y=543,x=1375,xiyi=8285,y=59051,=15,=108.6,r==≈0.9826,故相关程度很强.答案 A12.下图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2012~2018.由折线图看出,y与t有线性相关关系,请用相关系数加以说明.附注:参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.参考公式:相关系数r=.解 由折线图中数据和附注中参考数据得=4,(ti-)2=28,=0.55.(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,r≈≈0.99.因为y与t的相关系数近似为0.99,所以y与t的线性相关程度相当高.创新猜想13.(多选题)对于线性相关系数r,以下说法错误的是( )A.r只能是正值,不能为负值B.≤1,且越接近于1,相关程度越大;相反则越小C.≤1,且越接近于1,相关程度越小;相反则越大D.r