• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

Web内容清洗路线

作者:云创智学|发布时间:2022-05-16 13:45:42.0|来源:云创智学

Web内容清洗,主要是清洗来自网络的数据,为其构建合理的清洗方案。Web数据主要来自HTML网页。HTML网页的页面结构决定了采取哪种方式。


1.HTML页面结构

文本组成。所以从Web中进行数据抽取,可有两种不同的方式,一种是行分隔方式,另一种是树形结构方式。

在行分隔方式中,我们把网页的数据看作文本内容,把网页中的标签理解为分隔符,这样在进行数据抽取时就比较容易。


2.清洗方式

  Web内容清洗可以有两种方式,一种是逐行方式,另一种是使用树形结构方式。

  逐行方式中,采用基于正则表达式的HTML分析技术,它是基于文件中的分隔符,配合正则表达式,获取需要的数据。

联系方式
企业微信