HTML文件抽取:
人工方法进行HTML的数据抽取,主要的任务就是通过人工对网页源码结果的分析,借助编程语言,使用正则表达式,匹配HTML中的标签和标签属性,把有用的需要的数据过滤出来,实现HTML文件的数据抽取工作。
JSON数据抽取:
JSON的数据表现直截了当,通过花括号{}包裹,冒号:前面是数据的键,后面是数据的值,多个数据之间用逗号,分隔,若存在JsonArray,则用[]把数组的内容包裹起来。完全免除了对HTML源码标签和属性的分析,解决了人力负担
XML数据抽取:
在kettle中可以使用两种方式读取和解析XML文件,分别是Get data from xml和 XML Input Stream (StAX)