技术前沿 - 云创智学

数据清洗缺失值清洗

在各类数据源系统中，缺失值的问题时常发生，在一定程度上，造成缺失值的原因在于系统的不完备性和故障。具体原因较多，主要分为系统原因和人为原因。1、确定范围计算源端数据中字段缺失值比例，之后根据缺失率和重要性分别制定策略。对于重要性高和缺失率高的数据，可采取数据从其他渠道补全、使用其他字段计算获取和去掉字段，并在结果中制定策略进行清洗；对于重要性高但缺失率较低的数据，可采取计算填充、经验或业务知识估计等策略进行清洗；对于重要性低、缺失率高的数据，可采取去除该字段的策略进行清洗；对于重要性低且缺失率低的数据，可以不做处理。2、去除重要性低的字段重要性低的字段，且缺失严重，可以采取将数据抽取的结果放入一中间临时库中，在数据清洗之前，先备份临时库数据，然后直接删除不需要的字段。3、填充缺失内容某些缺失值补齐采取一定的值去填充缺失项，从而使数据完备化。通常基于统计学原理，根据决策表中其余对象取值的分布情况来对一个空值进行填充，例如用其属性的平均值来进行补充等。

作者：云创智学

来源：云创智学

发布时间：2022-05-19 13:43:27

增量数据抽取原理

在实际应用中，增量数据抽取比全量数据抽取更加高效和普遍。增量数据抽取一般使用基于时间戳和标识字段两种方式进行实现。

作者：云创智学

来源：云创智学

发布时间：2022-05-19 13:33:19

数据库数据抽取步骤

数据导入导出：数据导入导出一般涉及的问题就是相同类型数据库的备份和还原。因为数据库所包含的除了数据表、视图、触发器等结构性工具性的成分，最多的内容则是其中的数据信息。为了防止数据库服务器异常，恶意攻击，数据库管理员的误操作的情况发生，数据的导入导出作为最基本的一项数据库抽取操作变得尤为重要。ETL工具抽取：不同DBMS之间也是存在较大区别的。由于每种DBMS之间的SQL语法和变量类型也存在差异，所以每一种DBMS的脚本都是专用的，无法直接通过DBMS进行直接迁移，把数据从一个数据库管理系统DBMS中把数据库迁移到另一个DBMS中，使用ETL工具明显是一个高效的选择。SQL到NOSQL抽取：把关系型数据库数据迁移到非关系型数据库中。

作者：云创智学

来源：云创智学

发布时间：2022-05-19 13:30:31

JSON数据抽取实例

1、选择JSON文件，文件名为chinacitylist.js。如果使用kettle读取JSON文件，则文件的后缀名需要改为js，让kettle把该文件作为一个JavaScript文件来读取。2、在kettle的核心对象树中选择“Input”，而不是“输入”。从Input中，选中JSONInput对象，双击或者拖动到转化的编辑区域，根据读取的JSON文件的内容修改该对象名称为JSONInputChinaCity。3、双击该对象，进行属性设置。在文件选项页中先浏览需要读取的文件，再选择增加，注意JSON文件的后缀名已经改为了js，如图5-6所示先“浏览”找到需要抽取的JSON文件；再“增加”把选中的文件添加到“选中的文件”列表中4、在“字段”选项页中需要抽取的JSON文件的字段进行指派，这也是JSON文件抽取和之前提到的所有文件类型抽取的最大不同，JSONInput缺少自动获取JSON文件的字段，需要人工手动的进行输入，而且路径必须输入准确，并且对于JSON文件中需要抽取的内容，JSONInput也有一些特殊要求。如图5-7所示JSON抽取字段设置：每个JSON文件的字段内容均不相同，所以不同的JSON文件在抽取的时候都必须重新设置字段；字段的名字是在抽取后显示的列名，可以使用中文；字段的路径必须根据JSONPath规定的符号来设置，如图5-8所示5、点击预览，查看抽取效果，如果5-9所示6、从左侧“核心对象”选择“输出”，“Excel输出”，拖动到工作区，把JSONInput的主输出指向该Excel输出，在Excel输出中指定需要保存的xls路径和文件名，点击执行，就可以通过kettle抽取JSON文件中指定了路径的数据键，把这些内容抽取并保存到Excel文件中。

作者：云创智学

来源：云创智学

发布时间：2022-05-19 13:23:46

web数据抽取分类

HTML文件抽取：人工方法进行HTML的数据抽取，主要的任务就是通过人工对网页源码结果的分析，借助编程语言，使用正则表达式，匹配HTML中的标签和标签属性，把有用的需要的数据过滤出来，实现HTML文件的数据抽取工作。JSON数据抽取：JSON的数据表现直截了当，通过花括号{}包裹，冒号：前面是数据的键，后面是数据的值，多个数据之间用逗号，分隔，若存在JsonArray，则用[]把数组的内容包裹起来。完全免除了对HTML源码标签和属性的分析，解决了人力负担XML数据抽取：在kettle中可以使用两种方式读取和解析XML文件，分别是Getdatafromxml和XMLInputStream(StAX)

作者：云创智学

来源：云创智学

发布时间：2022-05-18 14:12:53

数据文本文件抽取

文本文件抽取的基本方式是通过文本结构分析器或者人工分析，找出文本文件中所用到的分隔符，把分隔符左右两边的内容作为两个字段值进行抽取。文本文件抽取实例如下：需要被抽取的文本文件TxtExtract_test.txt，文件内容如图

作者：云创智学

来源：云创智学

发布时间：2022-05-18 14:10:50

OpenRefine软件概述

OpenRefine最初叫作FreebaseGridworks，由一家名为Metaweb的公司开发，主要用于调试各种表格，以避免随着时间的推移出现错误，这对于任何数据库来说都是一个很大的问题。后来，该软件被谷歌收购，更名为GoogleRefine，并发布了第2版。2012年10月，GoogleRefine被社区接管，并以OpenRefine为名进行了开源。OpenRefine是典型的交互数据转换工具（InteractiveDataTransformationtools，IDTs），可以观察和操纵数据，使用单个的集成接口，对大数据进行快速、高效的操作。它类似于传统的表格处理软件Excel，但是工作方式更像是数据库，以列和字段的方式工作，而不是以单元格的方式工作。OpenRefine的主要功能有以下几种：多种格式的数据源文件支持，如JSON、XML、Excel等，除此之外，还可以通过插件的方式为OpenRefine添加更多格式的数据源的支持。数据的探索与修正。OpenRefine支持对数据的排序、分类浏览、查重、文本数据过滤等操作。还支持对单个列中的数据进行分割、将多个列的数据通过某种规则合并、对相似的数据进行聚类、基于已有数据生成新的数据列、行列转换等，而且这些操作都非常简单快捷。关联其他数据源。数据是相互联系的，OpenRefine支持将自己的数据与其他数据源进行关联，如将人员数据与Facebook数据进行关联。通过插件的方式，能够实现各种数据之间的关联。

作者：云创智学

来源：云创智学

发布时间：2022-05-18 14:08:06

Kettle基本操作

Kettle的主要功能是用来转换或者抽取数据，即ETL。Kettle提供了资源库的方式来整合所有的工作，如图所示为Kettle的概念模型。一个数据抽取过程主要包括创建一个作业，每个作业可以包括多个转换操作。转换主要是操作数据库，由编写和执行SQL语句、配置数据库地址等一系列步骤构成。一个完整的作业包括开始、作业、成功3个节点，针对作业进行编辑，选择作业所调用的转换，在转换中可以配置查询操作、更新操作或者插入操作等。上述操作均可使用软件中的工具执行，也可以通过编写程序调用的方式来实现。1．转换（transformation）转换主要是针对数据的各种处理，其本质是一组图形化的数据转换配置的逻辑结构，一个转换由若干个步骤（Steps）和连接（Hops）构成，转换文件的扩展名是.ktr。如下图所示的转换例子，是一个从文本文件中读取数据、过滤、排序，然后将数据加载到数据库的过程。（1）步骤转换的构建模块，如一个数据文件的输入或一个表的输出就是一个步骤。按不同的功能分类，Kettle中的步骤主要有输入类、输出类和脚本类等。每种步骤用于完成某种特定的功能，通过配置一系列的步骤就可以完成相关的数据转换任务。（2）连接数据的通道，用于连接两个步骤，实现将元数据从一个步骤传递到另一个步骤。构成一个转换的所有步骤，并非按顺序执行，节点的连接只是决定了贯穿在步骤之间的数据流，步骤之间的顺序并不是转换执行的顺序。当执行一个转换时，每个步骤都以其自己的线程启动，并不断地接收和推送数据。在一个转换中，所有的步骤是同步开启并运行的，所以步骤的初始化顺序是不可知的。因此我们不能在第一个步骤中设置一个变量，并试图在后续的步骤中使用它。一个步骤可以有多个连接，数据流可以从一个步骤流到多个步骤。2．作业（Jobs）作业是比转换更高一级的处理流程，基于工作流模型协调数据源、执行过程和相关依赖性的ETL活动，实现了功能性和实体过程的聚合，作业由作业节点连接、作业项（JobEntry）和作业设置组成，作业文件的扩展名是.kjb。一个作业中展示的任务有从FTP获取文件、核查一个数据库表是否存在、执行一个转换、发送邮件通知一个转换中的错误等，最终的结果可能是数据仓库的更新等。

作者：云创智学

来源：云创智学

发布时间：2022-05-18 14:07:03

Kettle软件概述

Kettle是一款国外的开源ETL工具，也是世界上最流行的开源商务智能软件Pentaho的主要组件之一，中文名称叫水壶，主要用于数据库间的数据迁移，商业名称PDI，纯Java编写，可跨平台运行，主要作者为Matt。2005年12月，Kettle成为开源软件。Kettle使用图形界面进行可视化的ETL过程设置操作，以命令行形式执行，支持非常广泛的数据库类型与文本格式输入和输出，支持定时和循环，实现了把各种数据放到一个壶中，并按用户的要求格式输出，具有可集成、可扩展、可复用、跨平台、高性能等优点，目前在国内外大数据项目上有广泛的应用。Kettle软件主要由4个组件组成：Spoon、Pan、Chef和Kitchen。Spoon是一个图形化界面，用于设计ETL转换过程（Transformation）。Pan批量运行由Spoon设计的ETL转换，是一个后台执行的程序，没有图形界面。Chef用于创建任务（Job）。通过允许每个转换、任务、脚本等，进行自动化更新数据仓库的复杂工作。Kitchen也是一个后台运行的程序，功能是批量使用由Chef设计的任务。

作者：云创智学

来源：云创智学

发布时间：2022-05-18 14:03:24

Kettle介绍

大数据技术中，数据清洗的前期过程可简单地认为就是ETL的过程。ETL（Extract-Transform-Load）负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层，进行清洗、转换、集成，最后加载到数据仓库或数据集市中，作为联机分析处理、数据挖掘提供决策支持的数据。在整个数据仓库的构建中，ETL工作占整个工作的50%～70%，是构建数据仓库的重要一环，用户从数据源抽取所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中。本节介绍一款开源的ETL工具—Kettle。

作者：云创智学

来源：云创智学

发布时间：2022-05-17 13:35:20

关于云创

联系我们