具體來說,在寫期間指定了胡迪表的兩種表類型。創建配置單元表時指定STORED AS INPUTFORMAT參數,以創建不同的_ro/_rt表。
如果表名=胡迪_旅行,表類型=寫時復制,我們將看到:
如果表名=胡迪_旅行,表類型=合並_讀,我們將看到:
下表顯示了每個查詢引擎支持的查詢類型。
註意:寫時復制表不支持讀優化查詢。
為了讓Hive識別胡迪表並正確查詢它:
除了上述設置,對於beeline cli訪問,您需要將變量hive.input.format設置為標準路徑名org。阿帕奇。胡迪。Hadoop。HoodieParquetinputformat。對於Tez,還需要將hive.tez.input.format設置為org . Apache . Hadoop . hive . QL . io . hiveinputformat .然後像查詢其他任何Hive表壹樣繼續查詢該表。
增量拉取(目前看來只有jdbc能做到)
HiveIncrementalPuller允許通過HiveQL從大型事實/維度表中增量提取更改,Hive QL結合了Hive(可靠地處理復雜的SQL查詢)和增量原語(通過增量拉取而不是完全掃描來加快查詢速度)的優點。該工具使用配置單元JDBC來運行配置單元查詢,並將結果保存在壹個臨時表中,該表可以被插入和更新。Upsert實用程序(HoodieDeltaStreamer)擁有目錄結構所需的所有狀態,以了解目標表上的提交時間。例如:/app/incremental-hql/intermediate/{ source _ table _ name } temp/{ last _ commit _ included }。註冊的增量配置單元表的格式為{tmpdb}。{ source _ table } { last _ commit _ include }。
可以咨詢大數據的技術問題,為妳解決煩惱。微信hainanzhongjian