一、一致性检验类型
在医学影像诊断、心理学量表评估、产品质量控制等领域,一致性检验发挥着重要作用。
1、定义
一致性检验是一种统计方法,用于评估不同数据集、方法或观测结果之间的一致性程度。其核心目标是判断多个观测结果或模型输出是否在统计上一致,从而验证其可靠性和稳定性。一致性检验的主要目的包括:
-
检查不同方法或模型的输出是否一致。
-
判断观测数据是否与理论预期一致。
-
评估不同观察者或测量工具对同一对象的评估结果是否一致。
2、类型
一致性检验的类型取决于数据的性质和研究目的,主要包括 4 种类型:评价者(观察者)一致性、诊断试验一致性、重测一致性、内部一致性,说明如下:
(1)评价者一致性:例如两位医生对同一份MRI图像的诊断结果是否一致
(2)诊断试验一致性:例如新诊断方法与现有金标准的比较
(3)重测一致性:同一研究对象被重复测量,例如血压检测
(4)内部一致性:评估问卷中多个问题是否一致地反映某一概念(如工作积极性)
二、一致性检验方法选择
观测数据类型不同,使用的一致性检验方法也不同,具体方法选择下表所示:
(1)Kappa系数:主要用于定类数据的一致性,包括Cohen´s kappa系数与Fleiss´s kappa系数,Cohen´s kappa系数又包括普通Kappa系数和加权Kappa系数,前者用于两组无序分类数据的一致性,后者用于两组有序分类或等级数据的一致性。如果观测或评价数据有多组,则可采用Fleiss´s kappa系数。
(2)Kendall协调系数:用于多组有序或等级数据的一致性检验,最常见的应用场景是专家评分数据一致性。
(3)ICC组内相关系数:应用范围最为广泛,定类或定量数据均适用。在实际分析中,主要应用于连续型定量数据资料的一致性评价以及量表问卷重测信度分析。
(4)Rwg组内评分者一致性:比较特殊,用于跨层数据的一致性检验。
(5)Bland-Altman图:仅针对两组连续性定量数据资料,并且它是图形可视化角度判断一致性的方法。下面分别对五类一致性检验方法进行详细介绍。
三、Kappa系数
Kappa 系数是一种广泛使用于评价者之间定类评分结果一致性的指标。
1、Kappa系数类型
Kappa一致性检验分为简单Kappa、加权Kappa、Fleiss Kappa系数;加权Kappa又细分为线性加权Kappa和二次加权Kappa。适用类型与适用场景如下:
(2)加权Kappa:有序分类变量——如果研究的数据为等级式定类数据:如满意、一般、不满意,此时使用线性加权Kappa(提示:如果使用加权Kappa,一般使用线性加权Kappa)。例如:研究两位学者对于不同作品满意度(满意、一般、不满意)的一致性程度。
(3)Fleiss Kappa:对比两项以上的一致性如果研究的数据为对比三项以上的结果一致性,此时使用Fleiss Kappa。
例如:研究三位专家对肿瘤患者病理切片的分析评定结果的一致性程度。
SPSSAU【实验/医学研究】模块提供【Kappa系数】,右侧可选择kappa类型:
2、Kappa系数判断标准
使用Kappa系数衡量一致性水平。Kappa系数取值在0~1之间,通常情况下:
3、数据格式
Kappa系数的数据格式比较特殊,下面分别介绍:
(1)简单Kappa
如果说数据没有 ‘ 加权 ’ ,共50个样本,那么总共50行;分别表示鼻拭子或者咽拭子的检测结果;此时则没有加权数据,也不需要进行加权项放置,数据格式如下表:
(2)加权Kappa
学者对于作品满意度分为满意、一般、不满意三种。因此3*3共有9种组合;单独使用一列数据表示每种组合的数量(即权重),数据结构如下表:
上表说明,学者1满意,学者2满意的作品数量为8;学者1满意,学者2一般的数量为2等等。
(3)Fleiss Kappa
比较两项以上的一致性,数据格式如下表:
提示:Fleiss Kappa不支持 “ 加权项 ”
(数据均为虚构,仅做展示说明)
4、SPSSAU分析结果
以简单Kappa为例,SPSSAU输出Kappa系数结果如下:
从上表可以看出,Kappa一致性检验呈现出显著性(p=0.000<0.01),说明执行医生判断结果与审核医生判定结果具有一致性;Kappa值为0.768,介于0.6和0.8之间,说明一致性较强。
更多内容点击下方链接查看SPSSAU帮助手册:
Kappa一致性检验
四、Kendall协调系数
当评价者超过两人且结果为有序分类数据时,之前提到的Kappa系数不再适用。这种情况下,Kendall协调系数可用于检验多位评价者对多个对象的评价是否具有一致性。
1、定义
Kendall协调系数,一般简称 W 系数,通常用于比较多组等级数据的一致性程度。应用场景为 K个评价者对N 个对象进行评价的一致性分析,如5个裁判对30名职业运动员测试等级的评分是否具有一致性。
Kendall协调系数用于测量评分数据一致性水平。取值在0~1之间,通常情况下:
-
Kendall协调系数 <0.2则说明一致性程度较差;
-
0.2~0.4之间说明一致性程度一般;
-
0.4~0.6之间说明一致性程度中等;
-
0.6~0.8之间说明一致性程度较强;
-
0.8~1.0之间说明一致性程度很强。
2、数据格式
在使用 Kendall 协调系数时,数据由 K 个评价者对 N 个对象的评分构成,要求评价者的评分数据至少是等级资料(有序分类或连续型定量数据)。在数据组织格式方面,可按行或按列来录入 K 个评价者的评分:
-
按行录入即每行是一个评价者N个对象作为N列;
-
按列录入即每列是一个评价者N个对象作为N行。
下表为按列录入格式:
3、SPSSAU分析结果
SPSSAU软件操作如下图:
SPSSAU输出Kendall分析结果如下:
更多内容点击下方链接查看SPSSAU帮助手册:
Kendall协调系数
五、ICC组内相关系数
前面介绍的Kappa系数、Kendall协调系数主要用于评价者的评分数据为分类数据或等级资料的情况。
1、定义
组内相关系数ICC,可用于衡量评价者间一致性和重复测量一致性,也可以应用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度,故其值介于0~1之间。0表示不一致(不可信),1表示完全一致(完全可信)。
2、ICC相关系数模型
ICC组内相关系数的计算有3种模型,分别是:单向随机、双向随机、双向混合,说明如下:
ICC模型选择共涉及三个方面,分别为单向/双向、混合/随机、一致性/绝对一致性;除此之外:3种模型均会输出单一度量或者平均度量这两个指标值。下面分别进行介绍:
(1)单向/ 双向
若仅有一个因素的变异则为单向模型。例如1位医生对10名病人的前后两次测定结果的一致性若一项观测数据如果有两方面的变异,即为双向模型,例如3位医生对10名病人的测定结果一致性
(2)混合/ 随机
双向混合和双向随机模型,从原理角度上进行了区分,但从算法计算的角度上看,其二者的数字计算结果完全一模一样,并没有任何区别。因而在分析时,只需描述选择过程。
(3)一致性/ 绝对一致性(单向模型只有绝对一致性)
如果研究中考虑系统误差问题,此时需要选择绝对一致性计算类型;如果不需要考虑系统误差时,此时选择一致性计算类型。
(4)单一度量/ 平均度量
-
单一度量:比如多位医生通过一项测试对抑郁症患者进行抑郁程度打分。此时数据为原始数据,应该使用单一度量。
-
平均度量:原始数据进行过计算,针对计算后的数据进行研究。比如多位医生通过对抑郁症患者进行多项测试,得出平均得分后,进行打分。此时的数据为多项测试平均后的得分,故应该使用平均度量
综上所述,结合3个模型,以及计算类型和度量标准,ICC模型一共可分为六个,如下表汇总:
3、数据格式
ICC组内相关系数的使用范围较广,但其复杂度相对较大;需要特别注意数据格式。假设3个医生对于10个病人智商分值打分,录入后的ICC数据格式如下:
4、SPSSAU分析结果
SPSSAU软件操作如下图:
SPSSAU输出ICC组内相关系数分析结果如下:
若使用的是原始数据,则使用单一度量的ICC组内相关系数0.921;若使用的是计算后数据,则使用平均度量的ICC组内相关系数0.972。从上表可以看出三位医生对于病人智商打分的一致性程度很强。
更多内容点击下方链接查看SPSSAU帮助手册:
ICC组内相关系数
六、组内评分者信度rwg
组内评分者信度rwg用于评估低层次变量在汇总到高层次之前的一致性程度。
1、数据格式
例如:当前有一项关于员工团队合作能力的打分数据,共有10个员工,并且10个员工分成2个组别。其使用6个测量项进行测量(并且使用5级量表打分制)。因而共有10个员工则为10行数据,并且单独使用group来标识组别(1组和2组),6个测量项共计6列。单独还有一列为subject即员工的编号此列数据在分析时不需要使用无分析意义。最终数据格式如下:
2、指标说明
rwg 的取值范围为 0~1,如果有小于 0 的情况出现则视为 0,如果有大于 1 的情况出现则视为 1。在 rwg的具体解读方面,LeBreton 和 Senter(2007)提出了以下参考:
-
当 0<rwg<0.3时,代表组内没有一致性;
-
0.31<rwg<0.50 时,代表组内一致性低;
-
0.51<rwg<0.70 时,代表组内一致性中等;
-
0.71<rwg<0.90 时,代表组内一致性高;
-
rwg>0.90 时,代表组内一致性极高。
除了要评价Rwg值外,同时还要评价ICC(1)和ICC(2)指标,以弥补Rwg的一些不足。一般来说,ICC(1)和ICC(2)的使用目的和Rwg是不同的,我们可通俗地将Rwg理解为组内一致性,而ICC(1)和ICC(2)则表示个体与层面评分的信度。
-
ICC(1):代表的是各组内成员或个体评分的信度,ICC(1)值越大,代表在同一个组里的不同成员的评分越一致。
-
ICC(2):是上升到组或层面上,ICC(2)是组内所有成员或个体平均评分的信度,成员越多,ICC(2)值信度就会越高。
组内评分者信度rwg
七、Bland-Altman图
Bland-Altman图简称 BA 图,是一种定量测量结果一致性检验的图示化方法,该方法可以对两次观测或两种方法、设备定量测量数据进行一致性评价。
1、理论说明
Bland-Altman图是一种一致性测量的可视化展示方法。适用于定量数据,其将测量数据相关计算后,进行散点展示出来,如果说散点在可信区间范围内(一般是差值的1.96个标准差范围内),那么就说明数据具有较好的一致性水平。
2、数据格式
例如:当前有医生使用两种方法分别做一项实验,现需要对第1种和第2种方法共两种方法的测量数据进行一致性检验;如果有分组数据,例如研究不同性别,此时只需要把性别group放入对应框中即可,group仅在图示中展示出不同的颜色进行区分,对于指标的计算并不会有任何的影响。数据结构如下图:
3、SPSSAU分析结果
SPSSAU软件操作如下图:
SPSSAU分析结果如下:
更多内容点击下方链接查看SPSSAU帮助手册:
Bland-Altman图