数据清理 - 知识百科wap.huandun.cc

数据清理

更新时间：2022-08-25 12:26

数据清理用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据（如对于相同的部分具有两个编号）之类的错误。数据清理工作的目的是不让有错误或有问题的数据进入运算过程，一般在计算机的帮助下完成，包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

简介

该进程必须解决不正确的用来自多个联机事务处理(OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据（如对于相同的部分具有两个编号）之类的错误。

编码或把资料录入时的错误，会威胁到测量的效度。数据清理主要解决数据文件建立中的人为误差，以及数据文件中一些对统计分析结果影响较大的特殊数值。常用的数据清理方法包括可编码式清理和联列式清理。

数据清理是一个过程，它包括两步：第一步是偏差检验，第二步是数据变换。同时这两步迭代进行。

数据清理工作的目的是不让有错误或有问题的数据进入运算过程。数据清理工作一般在计算机的帮助下完成。在录入的过程中，无论组织安排的多么仔细，工作多么认真，还是会或多或少出现一些差错，如原始数据本身存在问题、编码过程中出现差错、录入人员的疏忽所犯的错误。数据的清理通常包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。

数据有效范围清理

基本思路

有效范围清理的逻辑是：问卷中任何一个变量，其有效编码值往往都有某种范围，而当数据中的数字超出这一范围时，可以肯定这个数字一定是错误的。比如，在数据文件的“性别”这一变量栏中，出现了数字5,7或者9等，我们马上可以判断这是错误的编码值。因为根据编码手册的规定，“性别”这一变量赋值是“1=男，2=女，0=无回答”。凡是超出这三者范围的编码值，肯定都是错误的。

产生错误的原因

产生这种错误的原因，主要是因为：

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}