1.Pentaho Kettle
Kettle是一款国外的开源ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,无须安装,数据抽取高效稳定。
Kettle(中文译名:水壶),该项目的主程序员Matt 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle将ETL流程编译为XML格式,学起来十分简单,Pentaho Data Integration(Kettle)使用Java(Swing)开发。Kettle作为编译器对以XML格式书写的流程进行编译。Kettle的JavaScript引擎(和Java引擎)可以深层地控制对数据的处理。
2.OpenRefine
OpenRefine最初叫作Freebase Gridworks,由一家名为Metaweb的公司开发,主要用于调试各种表格,以避免随着时间的推移出现错误,这对于任何数据库来说都是一个很大的问题。后来,该软件被谷歌收购,更名为Google Refine,并发布了第2版。2012年10月,Google Refine被社区接管,并以OpenRefine为名进行了开源。
3.DataWrangler
DataWrangler(中文译名:牧马人)是一款由斯坦福大学开发的在线数据清洗、数据重组软件,主要用于去除无效数据,将数据整理成用户需要的格式等。使用 DataWrangler能节约用户花在数据整理上的时间,从而使其有更多的精力用于数据分析。
4.Hawk
Hawk是一种数据抓取和清洗工具,依据GPL协议开源,软件基于C#实现,其前端界面使用WPF开发,支持插件扩展。能够灵活高效地采集网页、数据库、文件等来源的数据,并通过可视化拖曳操作,快速地进行生成、过滤、转换等数据操作,快速建立解决方案。非常适合作为网页爬虫和数据清洗工具。Hawk含义为“鹰”,形容能够高效、准确地抓取和清洗数据。