技术前沿 - 云创智学

DOM模型介绍

DOM简介网页清洗的第一步是对页面结构的分析，页面结构分析在信息检索、分类、页面适应等方面都有重要作用。DOM模型是网页典型的“树形结构模型”。DOM（DocumentObjectMode，文档对象模型）是W3C组织推荐的处理可扩展标记语言的标准编程接口（API）。DOM将整个页面映射为一个由层次节点组成的文件，而HTML的标记也具有一定的嵌套结构。通过HTML解析器（parse）可以将HTML页面转化为一棵DOM树。如图所示，为网页DOM结构。

作者：云创智学

来源：云创智学

发布时间：2022-05-23 13:35:30

数据加载异常处理

如果条件允许，可利用数据中转区对运营数据进行预处理，保证集成与加载的高效性。如果ETL的过程是主动“拉取”，而不是从内部“推送”，其可控性将大为增强。ETL之前应制定流程化的配置管理和标准协议。关键数据标准至关重要。ETL面临的最大挑战是接收数据时其各源端数据的异构性和低质量。将数据加载到个体数据集时，在没有一个集中化的数据库的情况下，拥有数据模板是非常重要的。

作者：云创智学

来源：云创智学

发布时间：2022-05-23 13:32:35

数据加载方式

与数据抽取方式类似，在数据加载到目标数据集市或数据仓库过程中，分为全量加载和增量加载。全量加载是指全表删除后再进行全部（全量）数据加载的方式；而增量加载是指目标表仅更新源表变化（增量）的数据。增量抽取机制比较适用于以下特点的数据表：数据量巨大的目标表。源表变化数据比较规律，例如按时间序列增长或减少。源表变化数据相对数据总量较小。目标表需要记录过期信息或者冗余信息。业务系统能直接提供增量数据。

作者：云创智学

来源：云创智学

发布时间：2022-05-23 13:31:06

数据加载的概念

数据加载是继数据抽取和转换清洗后的一个阶段，它负责将从数据源中抽取加工所需的数据，经过数据清洗和转换后，最终按照预定义好的数据仓库模型，将数据加载到目标数据集市或数据仓库中去，可实现SQL或批量加载。大多数情况下，异构数据源均可通过SQL语句进行insert、update、delete操作。而有些数据库管理系统集成了相应的批量加载方法，如SQLServer的bcp、bulk等，Oracle的sqlldr，或使用Oracle的plsql工具中的import完成批量加载。大多数情况下会使用SQL语句，因为这样导入有日志记录，是可回滚的。但是，批量加载操作易于使用，并且在加载大量数据时效率较高。当异构数据源的种类繁多，且数据仓库模型复杂时，使用专业的ETL工具必将事半功倍。

作者：云创智学

来源：云创智学

发布时间：2022-05-23 13:30:20

数据质量评估指标有哪些?

一、数据质量评估数据质量是保证数据应用的基础，我们提出了一些数据质量的评估指标。在进行数据质量评估时，要根据具体的数据质量评估需求对评估指标进行相应的取舍。1、完整性2、一致性3、准确性4、及时性二、审计数据审计数据就是“对被审计单位的数据进行采集、预处理以及分析，从而发现审计线索，获得审计证据的过程”。审计数据有多种不同的处理方法1、数据查询2、审计抽样3、统计分析4、数值分析

作者：云创智学

来源：云创智学

发布时间：2022-05-23 13:29:17

数据错误出现的原因

数据错误是数据工作者需要注意的指标之一，因为数据错误能导致完全错误的分析结果。处理数据错误的方法取决于错误出现的原因。数据输入错误：人工在数据收集、记录、输入造成的错误，可能会成为数据中的异常值。测量误差：当使用错误的测量仪器测量时，通常会出现异常值。数据处理错误：当进行数据分析时，错误的数据处理操作可能会造成异常值。

作者：云创智学

来源：云创智学

发布时间：2022-05-20 13:44:10

转换数据错误主要包括哪两个方面

所谓数据转换，从计算机审计的需求来讲，主要包括两个方面的内容：一是将被审计单位的数据有效地装载到审计软件所操纵的数据库中；二是明确地标识出每张表、每个字段的具体含义及其相互之间的关系。而转换数据错误则出现在数据转换过程中，要想实现严格的等价转换是比较困难的。两种模型在数据转换的过程中会出现各种语法和语义上的错误。命名错误：源端数据源的标识符可能是目的数据源中的保留字。格式错误：同一种数据类型可能有不同的表示方法和语义差异。结构错误：如果两种数据库之间的数据定义模型不同，如为关系模型和层次模型，则需要重新定义实体属性和联系，以防止属性或联系信息的丢失。类型错误：不同数据库的同一种数据类型存在精度之间的差异。对于以上数据转换中的错误，可进行相应的处理。对于命名错误，可以先检查数据源中的保留字，建立保留字集合，对于保留字中的命名冲突，根据需要重新命名。对于格式错误，可以从数据源的驱动程序中取出相对应的数据源的数据类型后，对一些特定的类型进行特殊的处理。对于不同数据库的同一数据类型的精度冲突，类型转换中将类型和精度结合起来决定源端数据类型和目标数据类型的映射关系。找出目的数据源中与源端数据源类型的精度最匹配的数据类型作为默认的映射关系。

作者：云创智学

来源：云创智学

发布时间：2022-05-20 13:41:07

Kettle中的数据校验步骤

数据检验是在数据清洗转换过程中，通过对转换的数据项增加验证约束，实现对数据转换过程的有效性验证。可能存在的数据验证方法有数据项规则设置、数据类型检验、正则表达式约束检验、查询表检验等。对数据执行检验后，ETL工具提供验证结果的输出。在Kettle中，可以在数据转换过程中增加“数据检验”（DataValidator）步骤来完成数据的有效性校验。1、设置校验规则2、NULL验证3、日期类型验证4、日期类型验证5、正则表达式验证

作者：云创智学

来源：云创智学

发布时间：2022-05-20 13:39:22

数据逻辑错误清洗

1、排重清洗数据排重是指在数据中查找和删除重复内容，而不会影响其保真度或完整性。数据排重需要技巧，首先一定要有信息去识别一条数据的唯一性，也就是类似数据库中的主键，如果唯一性都无法识别，排重也就无所依据。2、去除不合理值不合理数据指在业务系统中收录的部分数据存在不合理性，例如一个大学生的实际年龄不能为5岁。一个员工的年龄也不可能超过200岁，QQ信息上好友的年龄为0岁等，导致此类问题的原因可能是业务系统操作失误，也有可能是用户为进行信息隐藏而故意错填数据。对于不合理的数据，在数据采集时，若该数据不是很重要，建议直接删除，否则需要进行人工干预或者引入更多的数据源进行关联识别。3、修正矛盾内容源端系统在提供数据时，存在部分信息可以相互验证的校验，例如，在某教务系统中，教师任课的编号由“学期＋教工号＋课程代码＋序号”构成，则该号码能够有效地验证当前教师任课信息中的学期信息、教师信息、课程信息等。同理，身份证号码也能够有效验证当前人员的出生年月，从而能够推算该人员的年龄。源端数据存在矛盾且可以利用规则判定的情况，能够通过ETL工具的规则设置进行查找发现“脏”数据，从而达到更加容易清洗的目的。

作者：云创智学

来源：云创智学

发布时间：2022-05-20 13:37:13

数据格式内容清洗

数据源系统若为业务系统，则该系统的数据通常由用户填写，在用户填写数据的过程中，存在全角输入、半角输入、空格符号、错误字段格式等错误。1、时间日期格式清洗当采取多个源端整合数据时，因源端系统的不够严谨，采取了字符串类型作为数据的存储类型，可能在不同的源中存储日期、时间的格式不一，导致数据多源抽取到临时表后存在不同的日期格式，从而导致目标系统无法应用。2、全角半角清洗全角指一个字符占用两个标准字符位置，半角指一字符占用一个标准的字符位置。在数据采集时，时常因输入法设置问题，将字母或者数字输入存储为全角格式。故在对数据进行ETL操作时，需要进行全角和半角转换。3、不应有的字符在源端系统中，数据采集时因人为原因可能存在一些数据不应有的字符，例如身份证号码出现非数字和X的情况，中国人的姓名出现西文字符、阿拉伯数字等情况。此类问题的解决需要采取半自动+人工方式相结合进行清洗。4、重新取数某些指标非常重要又缺失率高，且存在其他数据源可以获取，可采取重新抽取不同数据源的数据进行关联对比清洗。5、内容与字段不匹配端系统同样存在数据与该数据的字段表达意义不符的现象，该类问题主要来源于源端业务系统的缺陷

作者：云创智学

来源：云创智学

发布时间：2022-05-20 13:34:42

关于云创

联系我们