五種主流ETL工具的比較

1，簡介

DataPipeline:隸屬於北京數通科技有限公司，是企業級數據融合服務商和解決方案提供商，國內實時數據管道技術的倡導者。

通過平臺和技術，為企業客戶解決數據準備過程中的各種痛點，幫助客戶更加敏捷、高效、簡單地實現從復雜異構數據源到目的地的實時數據融合和數據管理。

從而打破傳統ETL對客戶靈活數據應用的束縛，使數據準備過程不再成為數據消費的瓶頸。

Kettle:是國外開源的ETL工具，純java編寫，可以在Windows、Linux、Unix上運行，數據提取高效穩定。kettle的中文名字是Kettle。這個項目的首席程序員MATT想把各種數據放在壹個水壺裏，然後按照指定的格式流出來。

Informatica:它是世界領先的數據管理軟件提供商。

Gartner是以下魔力象限的領導者:數據集成工具魔力象限、數據質量工具魔力象限、元數據管理解決方案魔力象限、主數據管理解決方案魔力象限和企業級集成平臺即服務(EiPaaS)魔力象限。

Talend:是數據集成解決方案領域的領先企業，為公有雲和私有雲以及本地環境提供壹體化的數據集成平臺。Talend的使命是幫助客戶優化數據，提高數據可靠性，更快地將企業數據轉化為商業價值。

以此為使命，Talend的解決方案將數據從傳統基礎設施中解放出來，提高客戶對業務的洞察力，讓客戶更早實現商業價值。

DataX:是阿裏巴巴集團廣泛使用的離線數據同步工具/平臺，實現了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各種異構數據源之間的高效數據同步。開放源地址:/alibaba/DataX

2.費用

軟件成本包括很多方面，主要包括軟件產品、售前培訓、售後咨詢和技術支持。

開源產品本身是免費的，成本主要是培訓和咨詢，所以成本會壹直維持在較低水平。

商業產品非常昂貴，但通常會提供幾次免費的咨詢或支持，所以最初使用商業軟件的成本很高，但在逐漸降低。

手工編碼初期成本不高，主要是人力成本，但是後期維護的工作量會越來越大。

3.適用場景

DataPipeline:主要用於各種數據融合和數據交換場景的靈活可擴展的數據交換平臺，專門針對超大數據和高度復雜的數據鏈路而設計；

Kettle:數據倉庫建模的傳統ETL工具；

Informatica:用於數據倉庫建模的傳統ETL工具:

Talend:用於數據倉庫建模的傳統ETL工具：

DataX:用於數據倉庫建模的傳統ETL工具

4.如何使用它

DataPipeline:全流程圖形化界面，應用采用B/S架構，Cloud Native為雲而生，所有操作均可在瀏覽器中完成，無需額外開發和生產發布；

Kettle: C/S客戶端模式，開發和生產環境需要獨立部署，任務在本地編寫、調試和修改，需要發布到生產環境。線上生產環境沒有接口，需要通過日誌進行調試和調試，效率低，耗時長。

Informatica: C/S客戶端模式，開發和生產環境需要獨立部署，任務在本地編寫調試修改需要發布到生產環境；學習成本高，壹般需要經過專業培訓的工程師才能使用；

Talend: C/S客戶端模式，開發和生產環境需要獨立部署，任務在本地編寫調試修改需要發布到生產環境；

DataX :DataX以腳本的形式執行任務，完全理解源代碼後才能調用，所以學習成本高，沒有圖形化的開發界面和監控界面，運維成本比較高。

5、底層架構

DataPipeline:分布式集群高可用架構，可橫向擴展至多個節點支持超大數據量，容錯性高，可自動調整節點間任務分配，適用於大數據場景；

Kettle:主從結構可用性不高，擴展性差，容錯性低，不適合大數據場景；

Informatica:架構映射不是自動的；再現性差；更新不是很強，支持分布式部署；

Talend:支持分布式部署；

DataX:支持單機部署和集群部署。

6.疾病控制中心機制

DataPipeline:可以多種方式選擇，如基於日誌、基於時間戳、自增序列等；

水壺:基於時間戳、觸發器等。

Informatica:可以多種方式選擇，基於日誌、基於時間戳、自增序列等；

Talend:可選擇基於觸發、基於時間戳、自增序列；

DataX:離線批處理

7.對數據庫的影響

DataPipeline:基於日誌的收集方法對數據庫是非侵入性的；

Kettle:需要數據庫表結構，有入侵性；

Informatica:基於日誌的收集對數據庫是非侵入性的；

Talend:侵入性；

DataX:通過sql select收集數據對數據源是無創的。

8.自動斷點連續傳輸

DataPipeline:支持；

水壺:不支持；

Informatica:不支持；

Talend:不支持；

DataX:不支持

9、監測和預警

DataPipeline:可視化流程監控，提供多樣化圖表，輔助運維，故障問題實時預警；

水壺:依靠日誌定位故障問題，往往只是壹種後處理方法，缺乏過程預警；

Informatica:monitor可以看到錯誤信息，比較籠統，定位問題還是要看分析日誌；

Talend:有問題預警，問題還是要靠日誌；

DataX:依靠工具日誌定位故障問題，沒有圖形化的運維界面和預警機制，需要定制開發。

10，數據清理

DataPipeline:圍繞數據質量的輕度清洗；

Kettle:圍繞數據倉庫的數據需求建模計算，清理功能相對復雜，需要手工編程；

Informatica:支持復雜邏輯的清理和轉換；

Talend:支持復雜邏輯的清理和轉換；

DataX:妳需要寫壹個清理腳本，按照自己的清理規則調用(DataX3.0提供的功能)。

11，數據轉換

DataPipeline:自動化模式映射；；

Kettle:手動配置模式映射；；

Informatica:配置架構映射；手動；

Talend:配置架構映射；手動；

DataX:通過編寫json腳本進行模式映射。

12，易用性，應用難度，是否需要開發。

DataPipeline:具有非常易用的GUI，豐富的可視化監控，易用性和難度低，不需要開發；

kettle:GUI+編碼，簡單易用，開發難度大；

informatica:GUI+編碼，有GUI，但需要專門訓練，容易上手，開發難度大；

talend:GUI+編碼，有GUI圖形界面，但作為Eclipse的插件提供。好用，難開發。

DataX:妳需要完全理解源代碼才能調用它。學習成本高，沒有圖形化的開發界面和監控界面，易用性低，難度高，需要開發。

13，技能要求

DataPipeline:操作簡單，無技術要求；

水壺:ETL設計、SQL、數據建模；

Informatica: ETL設計、SQL、數據建模；

Talend:妳需要寫Java；

DataX:妳需要編寫json腳本。

14，實時數據

DataPipeline:支持異構數據源的實時同步，速度非常快；

Kettle:不支持實時數據同步；

Informatica:支持實時，效率低；

Talend:支持實時處理，需要購買高級版本，價格昂貴；

DataX:實時支持

15，技術支持

DataPipeline:本地化原廠技術支持；

Kettle:開源軟件，需要客戶自己實現和維護；

Informatica:在美國主要是針對第三方的實施和售後服務；

Talend:在美國分為開源版和企業版，企業版可以提供相應的服務；

DataX:阿裏開源代碼，需要客戶自動實現、開發和維護。

文章整理的結果如有錯誤供自己學習，歡迎提出，已及時改正。