0
用户访问量
0
注册用户数
0
在线视频观看人次
0
在线实验人次

web数据抽取分类

作者：云创智学|发布时间：2022-05-18 14:12:53.0|来源：云创智学

HTML文件抽取：

人工方法进行HTML的数据抽取，主要的任务就是通过人工对网页源码结果的分析，借助编程语言，使用正则表达式，匹配HTML中的标签和标签属性，把有用的需要的数据过滤出来，实现HTML文件的数据抽取工作。

JSON数据抽取：

JSON的数据表现直截了当，通过花括号{}包裹，冒号：前面是数据的键，后面是数据的值，多个数据之间用逗号，分隔，若存在JsonArray，则用[]把数组的内容包裹起来。完全免除了对HTML源码标签和属性的分析，解决了人力负担

XML数据抽取：

在kettle中可以使用两种方式读取和解析XML文件，分别是Get data from xml和 XML Input Stream (StAX)

友情链接