3.2独立性检验的基本思想及其初步应用
1.数据的表示方法(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)用图表列出的两个分类变量的频数表,称为列联表.(3)与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
做一做1已知两个分类变量X,Y的取值分别为{x1,x2},{y1,y2},观察下列各图,其中两个分类变量X,Y之间关系最强的是()
解析:在4个选项中,D中的两个深色条的高相差最明显,说明两个分类变量之间的关系最强.答案:D
2.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)如下:公式,其中n=a+b+c+d为样本容量.
(3)考察两个变量X,Y是否有关系,并且能较准确地给出这种判断的可信度,具体做法是:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k0.
②根据2×2列联表,利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.做一做2在一个2×2列联表中,由其数据计算得K2=13.097,认为两个变量有关系犯错误的概率不超过()A.0.001B.0.05C.0.1D.0.2答案:A
思考辨析判断下列说法是否正确,正确的在后面的括号内画“√”,错误的画“×”.(1)吸烟人群是否与性别有关系,用独立性检验可解决.()(2)想要判断喜欢参加体育活动是不是与性别有关,应该假设H0:喜欢参加体育活动与性别有关.()(3)一般地,在等高条形图中,相差越大,两个分类变量有关系的可能性就越大.()(4)计算K2的值,如果K2的值很大,说明假设很合理,K2越大,两个分类变量有关系的可能性越大.()√×√×
探究一探究二思维辨析探究一利用图形与分类变量间的关系作出分析【例1】导学号78430080某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的426人中有332人在考前心情紧张,性格外向的594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系?解:作列联表如下:∴ad-bc=332×381-213×94=106470.∴ad-bc比较大,说明考前心情紧张与性格类型有关系.
探究一探究二思维辨析图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向占的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类型有关系.
探究一探究二思维辨析
探究一探究二思维辨析变式训练1网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人进行调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人期末考试不及格.利用图形判断学生经常上网与学习成绩是否有关系?解:根据题目所给的数据得到如下2×2列联表:
探究一探究二思维辨析得出等高条形图如图所示.比较图中深色条的高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为经常上网与学习成绩有关系.
探究一探究二思维辨析探究二独立性检验与应用【例2】导学号78430081为调查某地区的老年人是否需要志愿者提供帮助,用简单随机抽样的方法从该地区调查了500位老年人,结果如下:(1)估计在该地区的老年人中,需要志愿者提供帮助的老年人的比例.(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人需要志愿者提供帮助与性别有关?
探究一探究二思维辨析分析:(1)求出老年人需要帮助的共有多少人,再求比值;(2)利用公式计算出K2,再进行判断.解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区的老年人中,需要帮助的老年人的比例的估计值为(2)由列联表中的数据,得K2的观测值为由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人需要志愿者提供帮助与性别有关.
探究一探究二思维辨析
探究一探究二思维辨析变式训练2为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的有60人,患胃病者生活规律的有20人,未患胃病者生活不规律的有260人,未患胃病者生活规律的有200人.(1)根据以上数据列出2×2列联表;(2)能否在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与生活规律有关系?
探究一探究二思维辨析解:(1)由已知可列2×2列联表为(2)根据列联表中的数据,由计算公式得K2的观测值为因为9.638>6.635,所以在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与生活规律有关.
探究一探究二思维辨析因对独立性检验的基本思想不理解而致错典例已知两个分类变量X和Y的取值分别为{x1,x2},{y1,y2},若其列联表为则()A.X与Y之间有关系的概率为0.001B.X与Y之间有关系的概率为0.999C.认为X与Y有关系,犯错误的概率为0.999D.认为X与Y有关系,犯错误的概率不超过0.001
探究一探究二思维辨析错解K2的观测值为查表知P(K2≥10.828)=0.001.答案A或B或C正解:K2的观测值为≈18.822.查表知P(K2≥10.828)=0.001,所以在犯错误的概率不超过0.001的前提下,我们认为X与Y有关.答案:D
探究一探究二思维辨析
探究一探究二思维辨析变式训练两个分类变量X与Y的取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35,若认为“X与Y有关系”犯错误的概率不超过0.05,则c等于()A.4B.5C.6D.7解析:2×2列联表如下:故把选项A,B,C,D代入验证可得选A.答案:A
1.下列关于等高条形图的叙述正确的是()A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图中可以粗略地看出两个分类变量是否有关系D.以上说法都不对解析:在等高条形图中仅能粗略判断两个分类变量的关系,故A错,C对.在等高条形图中仅能够找出频率,无法找出频数,故B错.答案:C
2.下面是2×2列联表:则表中a,b的值分别为()A.94,96B.52,50C.52,54D.54,52答案:C
3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:.(填“是”或“否”)
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是
4.根据下表计算:K2的观测值k≈(保留3位小数),据此我们所得出的结论是.解析:K2的观测值为由4.514>3.841,知在犯错误的概率不超过0.05的前提下认为是否看电视与性别有关.答案:4.514在犯错误的概率不超过0.05的前提下,我们认为是否看电视与性别有关
5.下表是一次针对高三文科学生的调查所得的数据,能否在犯错误的概率不超过0.025的前提下认为文科学生总成绩不好与数学成绩不好有关系?解:依题意,计算随机变量K2的观测值为因此,在犯错误的概率不超过0.025的前提下认为文科学生总成绩不好与数学成绩不好有关系.