大数据技术中,数据清洗的前期过程可简单地认为就是ETL的过程。ETL(Extract-Transform-Load)负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,作为联机分析处理、数据挖掘提供决策支持的数据。在整个数据仓库的构建中,ETL工作占整个工作的50%~70%,是构建数据仓库的重要一环,用户从数据源抽取所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。本节介绍一款开源的ETL工具—Kettle。