kappa是什么意思：剔除随机误差的标注一致性校验指标-敬慕百科

刚接触数据标注工作的时候，被前辈随口问起kappa是什么意思，我支支吾吾答不上来，一直把它和普通准确率混为一谈，踩了好几个实打实的工作坑。

最开始完全搞不懂两者的区别，全程靠着正确率判断标注质量，觉得只要最终数字高，产出的数据就一定合格。那时候带着小组做文本分类标注，几十条几百条的样本逐一核对，统计出来的准确率次次都在八成以上，满心以为交付肯定没问题，结果每次内审都会被打回，审核的人只丢过来一个偏低的kappa数值，说我们团队标注标准不统一、人员判断偏差太大，可我盯着漂亮的准确率报表，压根想不通问题到底出在哪，反复核对标注内容，也找不出明显的错误漏洞，只觉得这个陌生的指标格外不讲道理。

这是绝大多数新手都会踩的低级误区。

折腾好久才搞明白，普通准确率最大的漏洞，就是算不出来随机巧合的误差。哪怕标注人员根本没按标准来，纯粹凭感觉瞎标，也会有一部分样本刚好匹配上标准答案，这部分虚假的匹配数据，会硬生生拉高整体准确率，让劣质数据看起来完美合规。而kappa系数存在的意义，就是专门剔除掉这部分随机匹配的水分，只统计真正因为统一标准、一致判断带来的标注重合度。

之前做过一次千人舆情标签归类的项目，四名标注员同步作业，前期自查准确率高达百分之九十一，放在以往绝对是优质数据，可测出的kappa值只有0.58，远低于行业合格标准。没办法只能全员复盘核对，最后真的查出了大量问题，有人把模糊舆情归为正面，有人统一划为中性，大家的判断逻辑完全不统一，只是刚好有大量随机重合的样本，掩盖了所有问题。也是这次事故，让我彻底摒弃了只看准确率的粗放式判断方式，所有多人标注的项目，一律以kappa值为核心判定依据。

很多人记不住kappa的数值判定标准，我之前也经常记混，导致反复返工。

实操里根本不用记复杂的学术分级，日常工作的判定逻辑很简单，kappa数值0.75及以上，代表所有人标注逻辑高度统一，数据质量达标可用；0.6至0.75之间属于勉强合格，存在轻微偏差，需要局部微调修正；一旦低于0.6，就说明标注标准混乱，数据完全不具备使用价值，必须整体返工重标。

其实不用纠结它复杂的计算公式，普通从业者根本用不到手动计算。不管是Python简单代码、SPSS工具，还是各类标注平台自带的统计功能，都能一键生成精准的kappa数值，我们只需要学会看懂结果、判断数据质量就足够，深究公式纯属浪费时间。

整改完那批舆情数据的深夜，清空了所有错误标注记录，导出了达标后的kappa统计报表，默默保存归档就关掉了工作页面。

kappa是什么意思：剔除随机误差的标注一致性校验指标

最新文章

热门文章

推荐文章