• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

数据清洗定义

作者:云创智学|发布时间:2022-05-09 13:31:06.0|来源:云创智学

1、来自多样化数据源的数据内容并不完美,存在着许多“脏数据”,即数据不完整有缺失、存在错误和重复的数据,数据的不一致和冲突等缺陷。数据清洗(Data Cleaning/Cleansing)对数据进行审查和校验,发现不准确、不完整或不合理数据,进而删除重复信息、纠正存在的错误,并保持数据的一致性、精确性、完整性和有效性以提高数据的质量。


2、数据清洗并没有统一的定义,其定义依赖于具体的应用领域。从广义上讲,数据清洗是将原始数据进行精简以去除冗余和消除不一致,并使剩余的数据转换成可接收的标准格式的过程;

而狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是有助于提高信息系统数据质量的处理过程,都可认为是数据清洗。

联系方式
企业微信