胡迪0.5.2胡迪寫時復制和讀時合並表區分關系

下表總結了不同查詢類型之間的權衡。

具體來說，在寫期間指定了胡迪表的兩種表類型。創建配置單元表時指定STORED AS INPUTFORMAT參數，以創建不同的_ro/_rt表。

如果表名=胡迪_旅行，表類型=寫時復制，我們將看到:

如果表名=胡迪_旅行，表類型=合並_讀，我們將看到:

下表顯示了每個查詢引擎支持的查詢類型。

註意:寫時復制表不支持讀優化查詢。

為了讓Hive識別胡迪表並正確查詢它:

除了上述設置，對於beeline cli訪問，您需要將變量hive.input.format設置為標準路徑名org。阿帕奇。胡迪。Hadoop。HoodieParquetinputformat。對於Tez，還需要將hive.tez.input.format設置為org . Apache . Hadoop . hive . QL . io . hiveinputformat .然後像查詢其他任何Hive表壹樣繼續查詢該表。

增量拉取(目前看來只有jdbc能做到)

HiveIncrementalPuller允許通過HiveQL從大型事實/維度表中增量提取更改，Hive QL結合了Hive(可靠地處理復雜的SQL查詢)和增量原語(通過增量拉取而不是完全掃描來加快查詢速度)的優點。該工具使用配置單元JDBC來運行配置單元查詢，並將結果保存在壹個臨時表中，該表可以被插入和更新。Upsert實用程序(HoodieDeltaStreamer)擁有目錄結構所需的所有狀態，以了解目標表上的提交時間。例如:/app/incremental-hql/intermediate/{ source _ table _ name } temp/{ last _ commit _ included }。註冊的增量配置單元表的格式為{tmpdb}。{ source _ table } { last _ commit _ include }。

可以咨詢大數據的技術問題，為妳解決煩惱。微信hainanzhongjian