开源ETL数据转化方案

1. ETL 数据转化工具

ETL 数据转化工具以元数据驱动的方式提供强大的抽取、转换和加载(ETL) 能力.本身提供了强大的图形界面设计器,可以大大缩短数据抽取项目的开发周期,并且容易维护. ETL 数据转化工具设计器界面友好,提供了工作流设计模式,能满足各种场景的实现。

2. ETL 数据转化工具的模型架构

2.1. 支持多种数据源

ETL 数据转化工具本身支持各种数据源,包括数据库、文件系统、Excel、Xml、LDAP、SOAP/WebServcie、CSV文件和RSS等各种数据源。 支持的数据库包括DB2、Oracle、Mysql、MS SQL Server、Sybase等各种主流数据库。 ETL 数据转化工具提供了对以上各种数据源访问的封装,开发人员只需拖动相应的组件到控制台即可。 数据库连接支持集群,和数据库分区访问。 数据库连接的方式支持JDBC、ODBC和JNDI方式,本省提供了数据连接池功能,能够大大提高数据库的访问效率。配置数据库连接的界面如下: 核心组件丰富 ETL 数据转化工具提供的Job核心组件: ETL 数据转化工具提供的转换核心组件: 控制流组件:

2.2. 支持多任务并发,支持大数据量的抽取转换处理,执行效率高

ETL 数据转化工具支持多任务并发,可以在界面内配置并发数,并可以针对每个组件配置并发数。

2.3. 成熟的异常处理流程

ETL 数据转化工具提供了丰富的异常处理功能,能满足各种异常处理需求。主要的异常处理组件有:

2.4. 可与Java应用很好结合

ETL 数据转化工具本身使用Java开发,可以与Java应用无缝结合,在应用中调用ETL 数据转化工具脚本。 同时,ETL 数据转化工具提供了一组Java接口,可以通过应用控制ETL 数据转化工具的执行过程,并对ETL 数据转化工具的执行信息和结果信息进行监控。样例程序如下:

3. ETL 数据转化工具的扩展性:

ETL 数据转化工具的控件采用插件式开发模式,因此本身就具备了很好的扩展性,支持插件式开发。插件式开发可以提高应用的可用性,插件可以单独更新与升级。