缺失数据是在一个数据集中,由于各种各样的原因而导致的个案在一个或多个变量上信息的缺失。缺失数据使样本量减少,会导致统计检验力的下降,此外,对于非随机的缺失机制,得到的统计结果可能是有偏的。那么,如何对论文中的缺失数据进行处理呐?
工具/原料
百度经验
方法/步骤
1
第一步:检查数据的缺失类型。 分为两种情况,一种是设计上可忽略的缺失数据,另外一种是设计上不可以忽略的缺失数据。
2
第二步:确定设计上可忽略的缺失数据三个部分1.缺失是研究设计的一部分 2.抽样而不是总体 3.截断数据:用男飞行员的身高估计男性整体身高
3
第三步:明确设计上不可忽略的缺失数据两种类型1.已知的情况:过程性因素导致的缺失。数据公开受限;没有完成问卷;被试选取失误(生病等)等。 2.未知的情况:直接由被试的原因导致的。比如被试拒绝回答某些题目。
4
第四步:检查数据的缺失程度的统计比例1.每个个案(case)在所有变量上的缺失比例;在每个变量上缺失数据的个案比例;在所有变量上都没有缺失的个案比例。
5
第五步:检查数据的缺失程度的判定标准。缺失比例低于10%,使用任何一种缺失数据的处理方法,差异都不大,但不包括非随机缺失。对有过多缺失的个案或变量进行简单的处理——删除;缺失比例15%以上的变量可以考虑删除,但缺失比例更高的(20%~30%),通常会进行补救
6
第六步:诊断数据的缺失机制。1.完全随机缺失(MCAR)2.随机缺失(MAR)3.非随机缺失(MNAR)
7
第七步:选择插补方法。成列删除,成对删除,个案替补,冷卡或热卡插补,均值插补,回归插补,或基于模型的方法。
上一篇:钼元素缺乏导致的不良影响有那些
下一篇:夜盲症是缺什么引起的?