元數據的管理是壹個受到越來越多關註的領域,Apache Atlas是元數據領域中最早也是最具名氣的壹個解決方案。最早由Hortonworks的團隊開發,並開源成為壹個頂級的項目。
Apache Atlas的整體架構如下
可以看到元數據管理系統,其實結構較為簡單,類似壹個數據字典的管理系統。這其中比較重要的是,怎麽 定義 數據結構能夠滿足現在異構的數據倉庫場景,其次便是現有的系統如何與元數據管理系統有比較好的集成。
Atalas 使用Hbase 作為底層存儲,JanusGraph作為數據血緣的圖存儲,同時使用Solr支持搜索的服務。通過與Kafka的對接實現推的更新模式。他同時開發API來支持主動拉取的模式。
我試驗過多種安裝的方式,官方給出的通過github來進行安裝的會碰到諸多的問題。通過編譯也需要做壹些改變比如
經過壹陣掙紮,還是選擇使用了Dockerhub上的項目 /sburn/docker-apache-atlas 。