Web内容清洗,主要是清洗来自网络的数据,为其构建合理的清洗方案。Web数据主要来自HTML网页。HTML网页的页面结构决定了采取哪种方式。
1.HTML页面结构
文本组成。所以从Web中进行数据抽取,可有两种不同的方式,一种是行分隔方式,另一种是树形结构方式。
在行分隔方式中,我们把网页的数据看作文本内容,把网页中的标签理解为分隔符,这样在进行数据抽取时就比较容易。
2.清洗方式
Web内容清洗可以有两种方式,一种是逐行方式,另一种是使用树形结构方式。
逐行方式中,采用基于正则表达式的HTML分析技术,它是基于文件中的分隔符,配合正则表达式,获取需要的数据。