数据清理

更新时间:2022-08-25 12:26

数据清理用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。数据清理工作的目的是不让有错误或有问题的数据进入运算过程,一般在计算机的帮助下完成,包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

简介

该进程必须解决不正确的用来自多个联机事务处理(OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据(如对于相同的部分具有两个编号)之类的错误。

编码或把资料录入时的错误,会威胁到测量的效度。数据清理主要解决数据文件建立中的人为误差,以及数据文件中一些对统计分析结果影响较大的特殊数值。常用的数据清理方法包括可编码式清理和联列式清理。

数据清理是一个过程,它包括两步:第一步是偏差检验,第二步是数据变换。同时这两步迭代进行。

数据清理工作的目的是不让有错误或有问题的数据进入运算过程。数据清理工作一般在计算机的帮助下完成。在录入的过程中,无论组织安排的多么仔细,工作多么认真,还是会或多或少出现一些差错,如原始数据本身存在问题、编码过程中出现差错、录入人员的疏忽所犯的错误。数据的清理通常包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

数据有效范围清理

基本思路

有效范围清理的逻辑是:问卷中任何一个变量,其有效编码值往往都有某种范围,而当数据中的数字超出这一范围时,可以肯定这个数字一定是错误的。比如,在数据文件的“性别”这一变量栏中,出现了数字5,7或者9等,我们马上可以判断这是错误的编码值。因为根据编码手册的规定,“性别”这一变量赋值是“1=男,2=女,0=无回答”。凡是超出这三者范围的编码值,肯定都是错误的。

产生错误的原因

产生这种错误的原因,主要是因为:

(1)原始问卷中的答案出现了问题。被调查者在填答问卷时因为笔误填写错误。

(2)错误发生在编码员的程序上。比如,某个调查者的年龄是24岁,编码员在编码的时候由于粗心,编写成42岁,超出了我们实际调查对象的年龄限制。这一超出有效范围的奇异值就来自于编码员。

(3)错误发生在计算机输入人员输入数据的过程中。输入人员在数据输入的过程中,往往都是眼睛看着编码栏,手在计算机键盘上敲打着0~9这10个数字,但是因为键盘上数字之间的距离太近,比价容易输入错误。

对于这一类错误的清理,可以通过在SPSS软件中执行对变量频数分布的命令,当我们发现频数分布表中变量的取值超出了编码手册所规定的的赋值范围,可通过计算机将这些个案查找出来,将这些问卷找出同原始问卷核对和修改。如果一份问卷中错答、乱答的问题不止一两处,则可以将这个个案的全部数据取消,作为废卷处理。

逻辑一致性检查

除了数据输入的奇异值之外,还有一种较为复杂,需要做的就是逻辑一致性清理。

基本思路

逻辑一致性清理的基本思路是:依据问卷中的问题相互之间存在的某种逻辑联系,来检查前后数据之间的合理性。它比有效范围清理要复杂一些,主要针对的是相依性问题。比如,前面问到“性别”属于“男性”,后面出现“怀孕时间”的答案数字;编码为“独生子女”的个案数据中,出现了“哥哥、姐姐的个数与年龄”的答案数字,等等。

解决方法

要查找和清理逻辑一致性问题的个案,可以在SPSS软件中,执行条件选择个案命令(Select Cases)中的If命令,来找出个案进行修改,或者直接用重新设置变量值命令进行变量取值的转换。

如果用Select Cases命令时,现用If命令将所有不符合要求的个案挑出来,再按前述有效范围清理的方法,找到原始问卷进行核对,对其做相应的处理。

逻辑一致性清理还可以采取SPSS中变量值转换的命令(即Record命令)来进行。可以采用Record into same Variables 命令对变量的取值进行转换。用Record命令的好处在于可以把需要修改的变量一次性修改完毕,所以这就要求研究者在运用这一命令时,确定符合条件的变量都是需要修改的,在输入的时候不是因为前面的过滤性问题而产生的错误。

逻辑一致性清理根据问卷调查中各问题的逻辑关系和情况不同,研究者要具体问题具体分析,不能一概而论,根据其内在的逻辑关系进行清理。

数据质量抽查

质量抽查的必要性

在上述两种方法对数据进行清理后,仍可能存在一些错误没有清理出来,假设某个案的数据在“性别”这一变量上输错了,问卷调查上填的答案是1(男性),编码值也是1,但是数据录入时却敲错成了2(女性)。因为2这个答案在正常有效的编码值范围内,因此,有效范围的清理检查查不出这一错误,也不可能通过逻辑一致性进行清理,更不可能拿着问卷一份份的核对,这时人们通常采用的方式时数据质量的抽查。

基本思路

数据质量抽查,是从样本的全部个案中,抽取一部分个案,对这些个案参照原始问卷逐一进行校对。用这一部分个案校对的结果来估计和评价全部数据的质量。根据样本中个案数目的多少,以及每份问卷中变量数和总数据的多少,研究者往往抽取2%~5%的个案进行校对。如一项调查样本的规模为1000个个案,一份问卷的数据个数为100,研究者从中随机抽取3%的个案,也即30份问卷进行核查,结果发现1个数据输入错误。这样1/(100*30)=0.033%,这就说明了数据的错误率在0.033%左右,在总共10万个数据中,大约有33个错误。虽然我们将其找出对其进行修改,但可以知道错误数据所占的比例,对调查结果有多大的影响,了解数据的质量。

技巧

1.首先,你可以下载一些存储分析器。在你的基础架构上运行这个程序,找出90天内没有被访问或修改的所有文件。做一个列表单并尽量将其与活动目录联系起来。

2.找出最大的文件,将其递交给相应的经理。“你看,这些文件占用了大量空间,并且其中许多文件都已经超过90天没有被访问了。这些文件还有用吗?”

3.让用户自由无限制地访问磁带。告诉他们这上面的数据很安全;而且可以通过万维网访问,可能会花费20秒到2分钟的时间。不过我们不想再把它放置在主存储上了,因为我们在主存储上的开销太大。你可能只需这一点点配合就能实现;甚至你都感觉不到。

4.实施文件隔离方案。基本上,指出在首次创建数据时你如何部署它们,并且在其上应用策略。精细地理解数据是最好的方式,即便只是基于人员所属部门来做。假如他在会计部门工作,并且你认为所有的会计系统都是关键业务,这就表示有某种水平的服务和资源承诺。当其进行保存时,文件就在应该在的位置。对用户完全透明,不需要进行任何配合操作。

5.怎样实现呢?你会针对每个资源池中数据的重要程度应用不同的策略。那么你是否会收到错误信息?当然会!不过一旦你收到错误信息,而且在90天内都没有被访问,那么它们会被迁移下线。我们不得不开始考虑应该怎样处理这部分数据了。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}