• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

web数据抽取分类

作者:云创智学|发布时间:2022-05-18 14:12:53.0|来源:云创智学

HTML文件抽取:

人工方法进行HTML的数据抽取,主要的任务就是通过人工对网页源码结果的分析,借助编程语言,使用正则表达式,匹配HTML中的标签和标签属性,把有用的需要的数据过滤出来,实现HTML文件的数据抽取工作。


JSON数据抽取:

JSON的数据表现直截了当,通过花括号{}包裹,冒号:前面是数据的键,后面是数据的值,多个数据之间用逗号,分隔,若存在JsonArray,则用[]把数组的内容包裹起来。完全免除了对HTML源码标签和属性的分析,解决了人力负担


XML数据抽取:

在kettle中可以使用两种方式读取和解析XML文件,分别是Get data from xml和 XML Input Stream (StAX)

联系方式
企业微信