评价ETL设计的好坏需要从多个不同的角度来考虑,主要包括对多平台的支持、数据源格式的支持、数据的转换、数据的管理和调试、数据的集成和开放性以及对元数据的管理等方面。
1.多平台
业务数据量的飞速增长,对系统的可靠性提出了更高的要求。对于海量的数据抽取,往往要求在有限的时间内完成。所以,平台对ETL开发工具的支持成为衡量一个开发工具的重要指标。目前主流的平台包括Windows、Linux、IBM AIX、Mac OS等。
2.多种数据源
开发工具对数据源的支持非常重要,不仅要考虑项目开发中各种不同类型的数据源,还要考虑数据源的接口类型。例如,在数据抽取时,使用原厂商自己的专用接口,还是通用接口,效率会大不一样。数据源包括Oracle、SQL Server、DB2、Sybase、Microsoft Excel等。
3.数据转换
由于在业务系统中的数据,存在数据时间跨度大、数据量多而乱的特点,就会造成在数据业务系统中可能会有多种完全不同的存储格式,也有可能业务系统存储的数据需要进行计算才能够抽取,因此,ETL功能中必须要有对数据进行计算、合并、拆分等转换功能。
4.具备管理和调试功能
由于数据业务量的增大,对数据抽取的要求也越来越高,专业的ETL工具要求具有管理和调度的功能,主要包括抽取过程的备份和恢复、版本升级、版本管理、支持统一的管理平台等功能。
5.集成性和开放性
随着国内数据仓库技术的不断发展,大多数情况下一般项目只会用到ETL工具的少数几个功能,开发商将ETL工具的主要功能模块集成到自己的系统中,这样可以减少用户的操作错误。这就要求ETL能够具有较好的集成性和开放性。
6.管理元数据
元数据是描述数据的数据,它是对业务数据本身及其运行环境的描述与定义,主要用于支持业务系统应用。元数据的主要表现是对对象的描述,即对数据库、表、列、主键等的描述。在当前信息化建设中,一些应用的异构性和分布性越来越普遍,使用统一的元数据成为重要的选择,合理的元数据可以打破以往信息化建设中的“信息孤岛”等问题。