技术前沿 - 云创智学

des加密算法原理

DES（DataEncryptionStandard）是对称加密的一种实现，即加密、解密运算所使用的密钥是相同的。下面介绍对course_info表中tcode字段进行DES加密。1、建立表输入，确立输入流，将tcode的类型转换为binary2、建立“表输入”“对称加密”“Excel输出”之间的连接3、自定义对称加密信息4、设置Excel表输出，并单击运行转换

作者：云创智学

来源：云创智学

发布时间：2022-05-25 13:27:42

数据脱敏什么意思

数据脱敏（DataMasking）是指用随机字符或数据隐藏原始数据的过程。一般需要进行数据脱敏处理的数据包括个人识别数据、个人敏感数据和商业敏感数据等。Kettle数据加密包括4种类型：对称加密、PGP加密流、PGP解密流、生成密钥。本节主要介绍DES加密、PGP加密流。

作者：云创智学

来源：云创智学

发布时间：2022-05-25 13:25:24

非需求数据清洗

所谓非需求数据清洗，就是删除对业务不重要的字段。在进行这一操作前，备份源数据显得相当重要。Kettle中使用“字段选择”控件中的“移除”功能可以实现字段的删除操作。

作者：云创智学

来源：云创智学

发布时间：2022-05-25 13:23:10

逻辑错误清洗

逻辑错误数据的清洗可分为以下两类：一是去掉重复的数据。在course_info表中存在所有字段内容都相同的情况，此为完全重复。二是修正矛盾内容。在course_info表中存在“总学时=上机学时+实验学时+讲课学时”的关系，但是实际的数据结果并非如此。比如第238条数据：总学时为40，上机学时、实验学时、讲课学时均为0，显然不符合逻辑；第282条数据：总学时为64，上机学时为0，实验学时为0，讲课学时为40。

作者：云创智学

来源：云创智学

发布时间：2022-05-25 13:22:30

格式内容清洗

1）不同的数据源不同数据源的数据标准不一致，即使导入过程正确，也使得最后数据显示格式不一致。2）人工错误人工导入过程出现错误或者数据检验工作不充分，导致导入的数据存在不符合常规的内容。格式内容清洗前提：何为错误类型1，错误类型2？在course_info表中，考核方式字段assess_method内容混入了空格，如assess_method='考查'，将这种情况定义为“格式错误类型1”。另外，在tname（教师姓名）字段下出现了tname='20168'的情况，而经过分析发现部分tname的值等于tcode（教师编号）的值，将这种情形定义为“格式错误类型2”。

作者：云创智学

来源：云创智学

发布时间：2022-05-25 13:21:39

kettle连接数据库的操作主要包括以下几个步骤

1、下载连接包；2、打开Spoon.bat文件，进入Spoon界面；3、双击Navicat应用程序，打开MySQL数据库；4、双击“转换1”下的DB连接，弹出数据库连接界面。连接类型选择MySQL，连接方式选择Native（JDBC）。根据实际情况填写连接名称、主机名称、数据库名称、端口号、用户名、密码，并单击“测试”按钮，若连接成功，则出现下图所示的提示界面。

作者：云创智学

来源：云创智学

发布时间：2022-05-24 13:26:21

网络爬虫异常处理

异常处理：当通过几十个代理IP实现爬虫操作时，如果其中一个代理IP突然不响应了就会报错，并且这种错误触发率极高。但是一个出问题并不会影响到整个脚本的任务，所以当捕获到此类异常的时候，直接忽略即可。URLError：通常，在没有网络连接（没有路由到特定服务器），或者服务器不存在的情况，就会触发URLError。这种情况下，异常通常会包含一个由错误编码和错误信息组成的reason属性。HTTPError：HTTPError是URLError的子类，服务器上每一个HTTP的响应都包含一个数字的“状态码”。有时候状态码会指出服务器无法完成的请求类型，一般情况下Python会自动处理一部分这类响应，如果有一些无法处理的，就会抛出HTTPError异常。这些异常包括典型的404（页面不存在），403（请求禁止）和401（验证请求）。

作者：云创智学

来源：云创智学

发布时间：2022-05-24 13:22:46

网络爬虫简介

网络爬虫（又被称为网页蜘蛛、网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫还有另外一些不常使用的名字，如蚂蚁、自动索引、模拟程序或者蠕虫等。网络爬虫的工作流程网络爬虫的工作流程图如下图所示：网络爬虫具体流程如下：首先选取一部分种子URL将这些URL输入待抓取URL队列从待抓取URL队列中取出待抓取的URL，解析DNS，得到主机的IP地址，并将URL对应的网页下载下来，存储到已下载网页库中，再将这些URL放进已抓取URL队列分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入抓取URL队列

作者：云创智学

来源：云创智学

发布时间：2022-05-24 13:20:38

DOM的优点和缺点

DOM的优点：易用性强，使用DOM时，将把所有的XML文档信息都存于内存中，并且遍历简单，支持XPath。DOM的缺点：效率低，解析速度慢，内存占用量过高，对于大文件来说几乎不可能使用。另外，效率低还表现在大量地消耗时间，因为使用DOM进行解析时，将为文档的每个element、attribute、processing-instruction和comment都创建一个对象，这样在DOM机制中所运用的大量对象的创建和销毁无疑会影响其效率。

作者：云创智学

来源：云创智学

发布时间：2022-05-24 13:18:47

DOM模型结构

1、DOM树结构DOM是由一组对象和存取、处理文档对象的接口组成，包括文档、节点、元素、文本节点、属性等。如图7-1所示，为DOM树模型的结构。2、访问DOM树结构属性是节点（HTML元素）的值，可通过JavaScript（以及其他编程语言）对HTMLDOM进行访问。访问HTML元素等同于访问节点，用户可以以不同的方式来访问HTML元素，表7-1为访问HTML元素的不同方法。

作者：云创智学

来源：云创智学

发布时间：2022-05-24 13:17:30

关于云创

联系我们