3.2 独立性检验的基本思想及其初步应用
(共计3课时) 授课类型:新授课
一、教学内容与教学对象分析
通过典型案例,学习下列一些常用的统计方法,并能初步应用这些方法解决一些实际问题。
① 通过对典型案例(如“患肺癌与吸烟有关吗”等)的探究。了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
② 通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、 方法及其初步应用。
二. 学习目标
1、知识与技能
通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法
在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观
通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。明确数学在现实生活中的重要作用和实际价值。教学中,应多给学生提供自主学习、独立探究、合作交流的机会。养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。 三.教学重点、难点
1
教学重点:理解独立性检验的基本思想;独立性检验的步骤。 教学难点;1、理解独立性检验的基本思想;
2、了解随机变量K2的含义; 3、独立性检验的步骤。
四、教学策略
教学方法:诱思探究教学法
学习方法:自主探究、观察发现、合作交流、归纳总结。 教学手段:多媒体辅助教学
五、教学过程:
对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.
为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 42 49 91 7817 2148 9965 不吸烟 7775 吸烟 总计 2099 9874 那么吸烟是否对患肺癌有影响吗?
像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.
与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.
2
图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.
为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.
3
通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?
为了回答上述问题,我们先假设
H0:吸烟与患肺癌没有关系.用A表示不吸烟, B表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H0等价于
PAB)=P(A)+P(B) .
把表3一7中的数字用字母代替,得到如下用字母表示的列联表:
表3-8 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 b d b+d a+b c+d a+b+c+d 不吸烟 a 吸烟 总计 c a+c
在表3一8中,a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有
aa?ba?c??, nnn其中n?a?b?c?d为样本容量, (a+b+c+d)≈(a+b)(a+c) ,
即ad≈bc.
因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量
n?ad?bc?K2? (1)
?a?b??c?d??a?c??b?d?其中n?a?b?c?d为样本容量.
4
2若 H0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为
9965?7775?49?42?2099?K2??56.632,
7817?2148?9874?91这个值到底能告诉我们什么呢?
统计学家经过研究后发现,在 H0成立的情况下,
2P(K2?6.635)?0.01. (2)
(2)式说明,在H0成立的情况下,K的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在K的观测值k≈56.632 ,远远大于6. 635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .
在上述过程中,实际上是借助于随机变量K2的观测值k建立了一个判断H0是否成立的规则:
如果k≥6. 635,就判断H0不成立,即认为吸烟与患肺癌有关系;否则,就判断H0
成立,即认为吸烟与患肺癌没有关系.
在该规则下,把结论“H0 成立”错判成“H0 不成立”的概率不会超过
22P(K2?6.635)?0.01,
即有99%的把握认为从不成立.
上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即
H0:“两个分类变量没有关系” 成立.在该假设下我们所构造的随机变量K应该很小.如果由观测数据计算得到的K的观测值k很大,则在一定可信程度上说明H0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k的值很小,则说明由样本观测数据没有发现反对H0 的充分证据.
2怎样判断K的观测值 k 是大还是小呢?这仅需确定一个正数k0,当k?k0时就认
22为 K的观测值k大.此时相应于k0的判断规则为:
如果k?k0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.
我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间
2 5
3.2 独立性检验的基本思想及其初步应用



