0
用户访问量
0
注册用户数
0
在线视频观看人次
0
在线实验人次

Web内容清洗路线

作者：云创智学|发布时间：2022-05-16 13:45:42.0|来源：云创智学

Web内容清洗，主要是清洗来自网络的数据，为其构建合理的清洗方案。Web数据主要来自HTML网页。HTML网页的页面结构决定了采取哪种方式。

1．HTML页面结构

文本组成。所以从Web中进行数据抽取，可有两种不同的方式，一种是行分隔方式，另一种是树形结构方式。

在行分隔方式中，我们把网页的数据看作文本内容，把网页中的标签理解为分隔符，这样在进行数据抽取时就比较容易。

2．清洗方式

Web内容清洗可以有两种方式，一种是逐行方式，另一种是使用树形结构方式。

逐行方式中，采用基于正则表达式的HTML分析技术，它是基于文件中的分隔符，配合正则表达式，获取需要的数据。

友情链接