• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

ETL子系统主要包括哪4种类型

作者:云创智学|发布时间:2022-05-17 13:29:25.0|来源:云创智学

1、抽取

抽取类子系统中,主要包括数据分析系统、增量捕获系统和数据抽取系统。

数据分析系统主要用来分析不同类型的数据源,包括数据源的格式、数据的类型、数据的内容等。

数据增量捕获系统主要是捕获数据源中发生了改变的数据,在Kettle中可通过时间戳的方式来捕获数据的变化。

数据抽取系统主要是从不同的数据源抽取数据,通过数据的过滤和排序,数据格式的转换,迁移到ETL环境,进行数据暂存。


2、清洗和更正数据

清洗和更正数据子系统主要包括数据清洗系统、错误处理系统、审计维度系统、重复数据排查系统和数据一致性系统。

数据清洗系统主要是根据系统业务需求对数据源中的数据进行清洗,提高数据的质量。通过清洗,可以找到错误的数据,并进行更正。在数据清洗系统中,数据业务人员、源系统开发人员、ELT开发人员都有义务来完成数据的清洗。


3、数据发布

 数据发布类子系统主要是加载和更新数据仓库数据,包括数据缓慢变化维度处理系统、迟到维度处理系统、代理键生成系统等。这里主要讲述数据缓慢变化维度处理系统。

数据缓慢变化维度处理系统是多维度数据仓库的基础,它保存了对事实表进行分析的信息。例如,如果业务系统修改了客户的信息,维度变更也会根据不同的规则变更数据仓库中的数据维度。变更方式可采用覆盖、增加新行、增加新列、增加小维度表、分离历史表等方式。


4、管理ETL

  管理ETL系统主要是对ETL开发环境进行设置,包括备份系统、恢复和重新启动子系统、工作流监控系统、问题报告系统、版本控制系统等。

联系方式
企业微信