• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

数据仓库的构建步骤

作者:云创智学|发布时间:2022-01-28 09:46:01.0|来源:云创智学

数据仓库的构建步骤

1、数据抽取

数据抽取是将数据从各种原始的业务数据中读取出来,这是所有工作的前提。

数据抽取可以分为以下两种:

1)全量抽取

将数据进行同步处理后,直接读取整个表中的数据作为抽取到的数据,主要处理对用户来讲非常重要的数据表。对一些重要的更新数据基本采用这种方法。

2)增量抽取

如交易数据、资金明细这些流水数据,可以根据数据表中流水号字段或时间字段来进行采集。在实时抽取中,这种方法可以减少抽取数据量,减少网络流量。


2、数据转换

数据转换是按照预先设计好的规则将抽取的数据进行转换,在转化过程中,我们需要对数据进行清洗、整理和集成,即发现数据中的错误数据并进行相应的改正,将原来不同规则的数据整理集成为统一的规则。

1)全量抽发现空值并处理

发现源数据中字段空值,按照一定的规则进行加载或者替换,比如可以用“0”或者按照该字段的平均取值来替换。

2)规范数据格式

将不同源系统的不同数据格式统一规范。

转化过程需要将这些不同的表示格式统一成为唯一的规范格式。

3)拆分数据

有时候需要一句业务需求对字段进行分解。比如通话主叫号码02381322854,可进行区域码和电话号码分解为主叫地区023和主叫号码81322854。


3、数据装载

数据装载是把经过转换的数据按计划增量或全部导入到数据仓库中去。一般情况下,数据装载应该在系统完成了更新之后进行。如果在数据仓库中的数据来自多个相互关联的企业系统,则应该保证在这些系统同步工作时移动数据。数据装载包括基本装载、追加装载、破坏性合并和建设性合并等方式。


4、元数据管理

元数据(Metadata)是描述数据的数据,也就是对业务数据本身进行及其运行环境的描述与定义的数据。所有的抽取数据源定义、抽取数据项定义、抽取规则、数据转换规则、数据格式变换规则、装载方法、装载时间等等都在元数据中定义。它指导数据抽取、转换、装载的全过程。

联系方式
企业微信