• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

开源的ETL工具有哪些

作者:云创智学|发布时间:2022-05-16 13:51:42.0|来源:云创智学

1.Pentaho Kettle

  Kettle是一款国外的开源ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,无须安装,数据抽取高效稳定。

  Kettle(中文译名:水壶),该项目的主程序员Matt 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle将ETL流程编译为XML格式,学起来十分简单,Pentaho Data Integration(Kettle)使用Java(Swing)开发。Kettle作为编译器对以XML格式书写的流程进行编译。Kettle的JavaScript引擎(和Java引擎)可以深层地控制对数据的处理。


2.OpenRefine

  OpenRefine最初叫作Freebase Gridworks,由一家名为Metaweb的公司开发,主要用于调试各种表格,以避免随着时间的推移出现错误,这对于任何数据库来说都是一个很大的问题。后来,该软件被谷歌收购,更名为Google Refine,并发布了第2版。2012年10月,Google Refine被社区接管,并以OpenRefine为名进行了开源。


3.DataWrangler

   DataWrangler(中文译名:牧马人)是一款由斯坦福大学开发的在线数据清洗、数据重组软件,主要用于去除无效数据,将数据整理成用户需要的格式等。使用    DataWrangler能节约用户花在数据整理上的时间,从而使其有更多的精力用于数据分析。


4.Hawk

  Hawk是一种数据抓取和清洗工具,依据GPL协议开源,软件基于C#实现,其前端界面使用WPF开发,支持插件扩展。能够灵活高效地采集网页、数据库、文件等来源的数据,并通过可视化拖曳操作,快速地进行生成、过滤、转换等数据操作,快速建立解决方案。非常适合作为网页爬虫和数据清洗工具。Hawk含义为“鹰”,形容能够高效、准确地抓取和清洗数据。

联系方式
企业微信