北京医药集团教育培训中心_医学教育网

北京医药集团教育培训中心_医学教育网

http://www.crmed.cn

菜单导航

几种常见的滥(乱)用卡方检验的情况

作者: 甘诺颖 发布时间: 2020年04月10日 06:32:57

卡方检验是医学科研中最常用的统计学方法之一,主要用于对分类资料进行比较分析。笔者粗略估计,医学期刊上刊登的临床研究类论文中,70%以上会使用该统计方法对数据进行分析。然而,在医学期刊,特别是国内期刊上刊登的论文中,滥(乱)用卡方检验的情况十分普遍、屡见不鲜。

在此,笔者拟就常见的滥(乱)用卡方检验的情况进行总结、概括和辨析,以帮助大家正确使用卡方检验。

1、处理四格表数据时不考虑样本量和最小理论频数而直接采用卡方检验

处理四格表数据是卡方检验最为常见的用途之一,其目的在于分析“构成比”或者“率”上的差异是否具有统计学意义。对于四格表数据,使用卡方检验的条件为样本量大于40,且最小理论频数应大于5。对于某些小样本的、或者指标阳性率较低的研究,总样本量可能小于40,最小理论频数也可能小于5,此时应该采用Fisher确切概率法进行分析。

比如某研究需比较小细胞肺癌和非小细胞肺癌内某个基因的表达情况的差异是否有统计学意义,得出如下四格表:



该研究的样本量仅为30个,且最小理论频数为(12×9)/30=3.6,所以应该采用Fisher确切概率法进行分析。实际上,从理论上讲,若要分析四格表数据中的构成比或者率之间的差异是否有统计学意义,Fisher确切概率法的结果是最可靠的。若是使用软件对数据进行分析,不论样本量和最小理论频数,均可采用Fisher确切概率法。

2、不考虑分析目的、设计类型而盲目套用卡方检验

有的四格表资料本身是配对的,且研究的目的主要是回答“一致性”或者“不一致性”的问题,此时就不应该用卡方检验对数据进行分析。比如:某研究者发明了一种新的HIV检测法,并且用该法和免疫印迹法(检测HIV感染的“金标准”)同时检测了100份血清,得到如下四格表数据:

该研究在设计上与表1中的研究最大的区别在于“配对”,即同一样本分别接受了新方法检测和免疫印迹法(金标准)的检测。研究者最关心的问题应该是“新方法和金标准之间的一致性”问题,若采用卡方检验进行分析,得出的结论是“免疫印迹法检测结果的频数分布在新方法阳性组和阴性组中是不同的”,这一结论显然并无多大专业价值。

对于此类研究,可以采用两种方法进行统计,一是采用Mcnemar χ2检验公式计算两种方法不一致的部分是否具有统计学意义;二是采用Kappa检验分析两种结果之间的一致性。

需要说明的是,此类研究中的一种方法必须是金标准,否则研究可能没有价值。以表2中的数据为例,若免疫印迹法并非检测HIV感染的金标准,两种方法的一致性即使好得一塌糊涂,也可能无济于事。

因为一个显而易见的问题是:这两种方法可能都是错误的检测方法。比如:采用金标准对100份血清进行检测后,其中90例为阳性,而不论是新方法还是免疫印迹法,均仅仅检测出了55个阳性样本,漏检率显然太高。

3、误用卡方检验处理等级资料

等级资料的表示方法与分类资料相似,因此受“定式思维”的影响,部分同行“习惯性”地采用卡方检验对等级资料进行处理,这也是医学期刊上最常见的滥(乱)用卡方检验的行为。卡方检验回答的问题仅仅是“构成比”或者“率”上的差异是否具有统计学意义,而不能回答效应指标的强度高低问题。比如某研究比较了两类人群胰腺癌分期的分布状况,如下表所示:

此类数据的一个显著特点是胰腺癌的分期(Ⅰ、Ⅱ、Ⅲ、Ⅳ期)是一个等级资料,研究者的研究目的是分析甲乙两群人胰腺癌的分期是否有差别,是一个强度“分期早晚”的问题,而不是“构成比”的差异。若用卡方检验处理此类数据,得出的结论就是“甲乙两类人群胰腺癌分期构成比上的差异是否具有统计学意义”,而无法明确“孰高孰低”的问题。

以上述表格为例,卡方检验结果显示有统计学意义,但问题在于:根据表中数据,人群甲以Ⅰ期和Ⅳ期为主,人群乙以Ⅱ期和Ⅲ期为主,让人完全无法判断两类人群的疾病分期“孰早孰晚”的问题。

处理此类数据的一般方法是将分期进行秩转换,然后以秩和检验进行统计分析,也可以直接采用Riddit分析进行统计。

4、对于多组资料反复使用卡方检验进行比较

又是研究者面对的数据可能有多行或者多列(R×C资料),研究者需要逐一比较各组数据的差异是否有统计学意义。比如某研究者对不同血型的个体患乙型肝炎的情况进行了调查,得出如下数据:

本文地址:/zsjy/87697.html

请遵守互联网相关规定,不要发布广告和违法内容