• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

大数据预处理的方法主要包括哪些?

作者:云创大数据|发布时间:2021-08-30 13:38:25.0|来源:云创大数据

虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些数据导入到一个集中的大型分布式数据库或者分布式存储集群当中,同时,在导入的基础上完成数据清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

现实世界中数据大体上都是不完整、不一致的“脏”数据,无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量,产生了数据预处理技术。


大数据预处理的方法主要包括一下四点:


1、数据清理

主要是达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除等目标。


2、数据集成

是将多个数据源中的数据结合起来并统一存储,建立数据仓库。


3、数据变换

过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。


4、数据规约

寻找依赖于发现目标的数据的有用特征,缩减数据规模,最大限度地精简数据量。

联系方式
企业微信