• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

des加密算法原理
DES(DataEncryptionStandard)是对称加密的一种实现,即加密、解密运算所使用的密钥是相同的。下面介绍对course_info表中tcode字段进行DES加密。1、建立表输入,确立输入流,将tcode的类型转换为binary2、建立“表输入”“对称加密”“Excel输出”之间的连接3、自定义对称加密信息4、设置Excel表输出,并单击运行转换
作者:云创智学 来源:云创智学 发布时间:2022-05-25 13:27:42
数据脱敏什么意思
数据脱敏(DataMasking)是指用随机字符或数据隐藏原始数据的过程。一般需要进行数据脱敏处理的数据包括个人识别数据、个人敏感数据和商业敏感数据等。Kettle数据加密包括4种类型:对称加密、PGP加密流、PGP解密流、生成密钥。本节主要介绍DES加密、PGP加密流。
作者:云创智学 来源:云创智学 发布时间:2022-05-25 13:25:24
非需求数据清洗
所谓非需求数据清洗,就是删除对业务不重要的字段。在进行这一操作前,备份源数据显得相当重要。Kettle中使用“字段选择”控件中的“移除”功能可以实现字段的删除操作。
作者:云创智学 来源:云创智学 发布时间:2022-05-25 13:23:10
逻辑错误清洗
逻辑错误数据的清洗可分为以下两类:一是去掉重复的数据。在course_info表中存在所有字段内容都相同的情况,此为完全重复。二是修正矛盾内容。在course_info表中存在“总学时=上机学时+实验学时+讲课学时”的关系,但是实际的数据结果并非如此。比如第238条数据:总学时为40,上机学时、实验学时、讲课学时均为0,显然不符合逻辑;第282条数据:总学时为64,上机学时为0,实验学时为0,讲课学时为40。
作者:云创智学 来源:云创智学 发布时间:2022-05-25 13:22:30
格式内容清洗
1)不同的数据源不同数据源的数据标准不一致,即使导入过程正确,也使得最后数据显示格式不一致。2)人工错误人工导入过程出现错误或者数据检验工作不充分,导致导入的数据存在不符合常规的内容。格式内容清洗前提:何为错误类型1,错误类型2?在course_info表中,考核方式字段assess_method内容混入了空格,如assess_method='考查',将这种情况定义为“格式错误类型1”。另外,在tname(教师姓名)字段下出现了tname='20168'的情况,而经过分析发现部分tname的值等于tcode(教师编号)的值,将这种情形定义为“格式错误类型2”。
作者:云创智学 来源:云创智学 发布时间:2022-05-25 13:21:39
kettle连接数据库的操作主要包括以下几个步骤
1、下载连接包;2、打开Spoon.bat文件,进入Spoon界面;3、双击Navicat应用程序,打开MySQL数据库;4、双击“转换1”下的DB连接,弹出数据库连接界面。连接类型选择MySQL,连接方式选择Native(JDBC)。根据实际情况填写连接名称、主机名称、数据库名称、端口号、用户名、密码,并单击“测试”按钮,若连接成功,则出现下图所示的提示界面。
作者:云创智学 来源:云创智学 发布时间:2022-05-24 13:26:21
网络爬虫异常处理
异常处理:当通过几十个代理IP实现爬虫操作时,如果其中一个代理IP突然不响应了就会报错,并且这种错误触发率极高。但是一个出问题并不会影响到整个脚本的任务,所以当捕获到此类异常的时候,直接忽略即可。URLError:通常,在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况,就会触发URLError。这种情况下,异常通常会包含一个由错误编码和错误信息组成的reason属性。HTTPError:HTTPError是URLError的子类,服务器上每一个HTTP的响应都包含一个数字的“状态码”。有时候状态码会指出服务器无法完成的请求类型,一般情况下Python会自动处理一部分这类响应,如果有一些无法处理的,就会抛出HTTPError异常。这些异常包括典型的404(页面不存在),403(请求禁止)和401(验证请求)。
作者:云创智学 来源:云创智学 发布时间:2022-05-24 13:22:46
网络爬虫简介
网络爬虫(又被称为网页蜘蛛、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫还有另外一些不常使用的名字,如蚂蚁、自动索引、模拟程序或者蠕虫等。网络爬虫的工作流程网络爬虫的工作流程图如下图所示:网络爬虫具体流程如下:首先选取一部分种子URL将这些URL输入待抓取URL队列从待抓取URL队列中取出待抓取的URL,解析DNS,得到主机的IP地址,并将URL对应的网页下载下来,存储到已下载网页库中,再将这些URL放进已抓取URL队列分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入抓取URL队列
作者:云创智学 来源:云创智学 发布时间:2022-05-24 13:20:38
DOM的优点和缺点
DOM的优点:易用性强,使用DOM时,将把所有的XML文档信息都存于内存中,并且遍历简单,支持XPath。DOM的缺点:效率低,解析速度慢,内存占用量过高,对于大文件来说几乎不可能使用。另外,效率低还表现在大量地消耗时间,因为使用DOM进行解析时,将为文档的每个element、attribute、processing-instruction和comment都创建一个对象,这样在DOM机制中所运用的大量对象的创建和销毁无疑会影响其效率。
作者:云创智学 来源:云创智学 发布时间:2022-05-24 13:18:47
DOM模型结构
1、DOM树结构DOM是由一组对象和存取、处理文档对象的接口组成,包括文档、节点、元素、文本节点、属性等。如图7-1所示,为DOM树模型的结构。2、访问DOM树结构属性是节点(HTML元素)的值,可通过JavaScript(以及其他编程语言)对HTMLDOM进行访问。访问HTML元素等同于访问节点,用户可以以不同的方式来访问HTML元素,表7-1为访问HTML元素的不同方法。
作者:云创智学 来源:云创智学 发布时间:2022-05-24 13:17:30
联系方式
企业微信