OpenRefine最初叫作Freebase Gridworks,由一家名为Metaweb的公司开发,主要用于调试各种表格,以避免随着时间的推移出现错误,这对于任何数据库来说都是一个很大的问题。后来,该软件被谷歌收购,更名为Google Refine,并发布了第2版。2012年10月,Google Refine被社区接管,并以OpenRefine为名进行了开源。
OpenRefine是典型的交互数据转换工具(Interactive Data Transformation tools,IDTs),可以观察和操纵数据,使用单个的集成接口,对大数据进行快速、高效的操作。它类似于传统的表格处理软件Excel,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。
OpenRefine的主要功能有以下几种:
多种格式的数据源文件支持,如JSON、XML、Excel等,除此之外,还可以通过插件的方式为OpenRefine添加更多格式的数据源的支持。
数据的探索与修正。OpenRefine支持对数据的排序、分类浏览、查重、文本数据过滤等操作。还支持对单个列中的数据进行分割、将多个列的数据通过某种规则合并、对相似的数据进行聚类、基于已有数据生成新的数据列、行列转换等,而且这些操作都非常简单快捷。
关联其他数据源。数据是相互联系的,OpenRefine支持将自己的数据与其他数据源进行关联,如将人员数据与Facebook数据进行关联。通过插件的方式,能够实现各种数据之间的关联。