8.3 列联表与独立性检验8.3.1 分类变量与列联表课标要求素养要求1.通过实例,理解2×2列联表的统计意义.2.理解判断两个分类变量是否有关系的常用方法.通过学习2×2列联表,提升数学抽象、直观想象及数据分析素养.新知探究饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.问题 人的身体健康状况与饮用水的质量之间有关系吗?提示 我们可以根据2×2列联表找到人的身体健康与饮用水之间的关系,也就是本节课所要学习的内容.1.分类变量这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.2.2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2×2列联表,2×2列联表给出了成对分类变量数据的交叉分类频数.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d3.等高堆积条形图等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.拓展深化[微判断]1.分类变量中的变量与函数中的变量是同一概念.(×)提示 分类变量中的变量是指一定范围内的两种现象或性质,与函数中的变量不是同一概念.2.列联表中的数据是两个分类变量的频数.(√)3.列联表、频率分析法、等高条形图都可初步分析两分类变量是否有关系.(√)[微训练]1.下列不是分类变量的是( )A.近视B.成绩C.血压D.饮酒解析 近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.故选B.答案 B2.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×
2列联表所示(单位:人),则其中m=________,n=________.80分及80分以上80分以下合计试验班321850对照班24m50合计5644n解析 由题意得解得答案 26 100[微思考]1.是否吸烟、是否患肺癌是什么变量?提示 分类变量.2.吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗?提示 不是.题型一 用2×2列联表分析两分类变量间的关系【例1】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.解 2×2列联表如下:年龄在六十岁以上年龄在六十岁以下合计饮食以蔬菜为主432164273360
饮食以肉类为主合计7054124将表中数据代入公式得==0.671875.==0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.规律方法 (1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.【训练1】 假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:y1y2x11018x2m26则当m取下面何值时,X与Y的关系最弱( )A.8B.9C.14D.19解析 由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.答案 C题型二 用等高堆积条形图分析两分类变量间的关系【例2】 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
解 作列联表如下:性格内向性格外向合计考前心情紧张332213545考前心情不紧张94381475合计4265941020相应的等高堆积条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前心情紧张与性格类型有关.规律方法 利用等高堆积条形图判断两个分类变量是否相关的步骤:【训练2】 在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解 根据题目给出的数据作出如下的列联表:色盲不色盲合计男38442480女6514520合计449561000根据列联表作出相应的等高堆积条形图:
从等高堆积条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.一、素养落地1.通过本节课的学习,进一步提升数学抽象、直观想象及数据分析素养.2.列联表与等高堆积条形图列联表由两个分类变量之间频率大小的差异说明这两个变量之间是否有相关关系,而利用等高堆积条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.二、素养训练1.与表格相比,能更直观地反映出相关数据总体状况的是( )A.列联表B.散点图C.残差图D.等高堆积条形图答案 D2.在一项有关医疗保健的社会调查中,发现调查的男性为530人,女性为670人,其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,则性别与喜欢吃甜食的2×2列联表为________.答案 喜欢吃甜食不喜欢吃甜食合计男117413530女492178670合计60959112003.根据如图所示的等高堆积条形图可知吸烟与患肺病________关系(填“有”或“没有”).
解析 从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率.答案 有4.(多空题)下面是一个2×2列联表:y1y2合计x1a2173x222527合计b46100则表中a=________,b=__________.解析 由题意得解得答案 52 545.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病合计服用药104555未服用药203050合计3075105试用等高条形图分析服用药和患病之间是否有关系.解 根据列联表所给的数据可得出服用药患病的频率为≈0.18,未服用药患病的频率为=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病有关系.
基础达标一、选择题1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )解析 观察等高条形图发现和相差越大,就判断两个分类变量之间关系越强.答案 D2.可以粗略地判断两个分类变量是否有关系的是( )A.散点图B.等高堆积条形图C.残差图D.以上都不对解析 用等高堆积条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.答案 B3.(多选题)分类变量X和Y的列联表如下:y1y2合计x1aba+bx2cdc+d
合计a+cb+da+b+c+d则下列说法不正确的是( )A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析 |ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.答案 ABD4.已知两分类变量的列联表如下:A合计B2008001000180a180+a合计380800+a1180+a最后发现,这两个分类变量没有任何关系,则a的值可能是( )A.200B.720C.100D.180解析 由于A和B没有任何关系,根据列联表可知和基本相等,检验可知,B满足条件,故选B.答案 B5.(多选题)如图是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出( )
A.性别与喜欢理科无关B.女生中喜欢理科的百分比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的百分比为40%解析 由题图知女生中喜欢理科的百分比为20%,男生不喜欢理科的百分比为40%,男生比女生喜欢理科的可能性大些,故A,B不正确,C,D正确.答案 CD二、填空题6.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是__________________________________________________________.答案 男正教授人数,男副教授人数;女正教授人数,女副教授人数7.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3648名男性公民与3432名女性公民中,持反对意见的男性有1843人、女性有1672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列给出的________最具说服力(填序号).①回归直线方程;②平均数与方差;③等高堆积条形图.解析 由于参加调查的公民按性别被分成两组,而且每一组又被分成两种情况:认为有关与无关,故该资料取自完全随机统计,符合2×2列联表的要求,应用等高堆积条形图最具说服力.答案 ③8.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目合计20至40岁401858大于40岁152742合计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关:__________(填“是”或“否”).
解析 因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案 是三、解答题9.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数合计铅中毒病人29736对照组92837合计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?解 等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.10.当某矿石粉厂生产一种矿石粉时,在数天内就有部分工人患职业性皮肤炎.在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的车间工人中5例阳性,70例阴性,28名穿旧防护服的车间工人中10例阳性,18例阴性,请用图形判定这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)
解 由题目所给的数据得2×2列联表:阳性例数阴性例数合计穿新防护服57075穿旧防护服101828合计1588103相应的等高条形图如图所示.图中两个深色条的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率高于穿新防护服呈阳性的频率.因此,可以认为新防护服比旧防护服对预防这种皮肤炎有效.能力提升11.在2×2列联表中,两个比值相差越大,两个分类变量有关系的可能性就越大,那么这两个比值为( )A.与B.与C.与D.与解析 由题意,==,因为|ad-bc|的值越大,两个分类变量有关系的可能性就越大,故选A.答案 A12.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:子女吸烟子女不吸烟合计父母吸烟237678915父母不吸烟83522605合计32012001520利用等高条形图判断父母吸烟对子女吸烟是否有影响?
解 等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.创新猜想13.(多选题)已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:y1y2合计x1aba+bx2cdc+d合计a+cb+da+b+c+d若两个分类变量X,Y没有关系,则下列结论正确的( )A.ad≈bcB.≈C.≈D.≈解析 因为分类变量X,Y没有关系,所以≈,化简得ad≈bc,所以A,B正确,C,D显然不正确.答案 AB14.(多空题)下表是关于男婴与女婴出生时间调查的列联表:晚上白天合计男婴45AB
女婴E35C合计98D180那么,A=__________,B=__________,C=__________,D=__________,E=__________.解析 由列联表知识得解得答案 47 92 88 82 53