如何進行ApacheHudi與其他類似系統的比較

發布時間：2021-12-10 09:59:14 來源：億速云閱讀：118 作者：柒染欄目：大數據

如何進行ApacheHudi與其他類似系統的比較，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

Apache Hudi填補了在DFS上處理數據的巨大空白，并可以和一些大數據技術很好地共存。然而，將Hudi與一些相關系統進行對比，來了解Hudi如何適應當前的大數據生態系統，并知曉這些系統在設計中做的不同權衡仍將非常有用。

Kudu

Apache Kudu是一個與Hudi具有相似目標的存儲系統，該系統通過對 upserts支持來對PB級數據進行實時分析。一個關鍵的區別是Kudu還試圖充當OLTP工作負載的數據存儲，而Hudi并不希望這樣做。因此，Kudu不支持增量拉取(截至2017年初)，而Hudi支持增量處理。

Kudu與分布式文件系統抽象和HDFS完全不同，它自己的一組存儲服務器通過RAFT相互通信。與之不同的是，Hudi旨在與底層Hadoop兼容的文件系統(HDFS，S3或Ceph)一起使用，并且沒有自己的存儲服務器群，而是依靠Apache Spark來完成繁重的工作。因此，Hudi可以像其他Spark作業一樣輕松擴展，而Kudu則需要硬件和運營支持，特別是HBase或Vertica等數據存儲系統。到目前為止，我們還沒有做任何直接的基準測試來比較Kudu和Hudi。但是，如果我們要使用CERN，我們預期Hudi在攝取parquet文件上有更卓越的性能。

Hive事務

Hive事務/ACID是另一項類似的工作，它試圖在ORC文件格式之上的實現 讀取時合并的存儲層。可以理解，此功能與Hive以及LLAP之類的其他工作緊密相關。Hive事務不提供Hudi提供的讀取優化存儲選項或增量拉取。在實現選擇方面，Hudi充分利用了類似Spark的處理框架的功能，而Hive事務特性則在用戶或Hive Metastore啟動的Hive任務/查詢的下實現。根據我們的生產經驗，與其他方法相比，將Hudi作為庫嵌入到現有的Spark管道中要容易得多，并且操作不會太繁瑣。Hudi還設計用于與Presto/Spark等非Hive引擎合作，并計劃引入除parquet以外的文件格式。

HBase

盡管HBase最終是OLTP工作負載的鍵值存儲層，但由于與Hadoop的相似性，用戶通常傾向于將HBase與分析相關聯。鑒于HBase經過嚴格的寫優化，它支持開箱即用的亞秒級更新，Hive-on-HBase允許用戶查詢該數據。但是，就分析工作負載的實際性能而言，Parquet/ORC之類的混合列式存儲格式可以輕松超越HBase，因為這些工作負載主要是讀取繁重的工作。Hudi彌補了更快的數據與分析存儲格式之間的差距。從運營的角度來看，與管理分析使用的HBase region服務器集群相比，為用戶提供可更快給出數據的庫更具可擴展性。最終，HBase不像Hudi這樣重點支持 提交時間、 增量拉取之類的增量處理原語。

流式處理

一個普遍的問題："Hudi與流處理系統有何關系？"，我們將嘗試回答。簡而言之，Hudi可以與當今的批處理( 寫時復制存儲)和流處理( 讀時合并存儲)作業集成，以將計算結果存儲在Hadoop中。對于Spark應用程序，這可以通過將Hudi庫與Spark/Spark流式DAG直接集成來實現。在非Spark處理系統(例如Flink、Hive)情況下，可以在相應的系統中進行處理，然后通過Kafka主題/DFS中間文件將其發送到Hudi表中。從概念上講，數據處理管道僅由三個部分組成：輸入， 處理， 輸出，用戶最終針對輸出運行查詢以便使用管道的結果。Hudi可以充當將數據存儲在DFS上的輸入或輸出。Hudi在給定流處理管道上的適用性最終歸結為你的查詢在Presto/SparkSQL/Hive的適用性。

更高級的用例圍繞增量處理的概念展開，甚至在 處理引擎內部也使用Hudi來加速典型的批處理管道。例如：Hudi可用作DAG內的狀態存儲(類似Flink使用的[rocksDB(https://ci.apache.org/projects/flink/flink-docs-release-1.2/ops/state_backends.html#the-rocksdbstatebackend))。這是路線圖上的一個項目并將最終以Beam Runner的形式呈現。

Iceberg & Delta

對于與Iceberg和Delta的對比，可以看如下對比圖（2019年9月之前由Qubole技術博客提供）。

如何進行ApacheHudi與其他類似系統的比較

Hudi社區并不想通過官方文檔方式來比較與同為數據湖開源框架Iceberg和Delta的區別，因為這可能會讓開發者覺得Hudi立場不中立，為保持更為中立的立場，社區更愿意將此比較交給開發者，讓他們去選擇適合自己的框架。

關于如何進行ApacheHudi與其他類似系統的比較問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何進行ApacheHudi與其他類似系統的比較

Kudu

Hive事務

HBase

流式處理

Iceberg & Delta

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

如何進行ApacheHudi與其他類似系統的比較

Kudu

Hive事務

HBase

流式處理

Iceberg & Delta

猜你喜歡

最新資訊

相關推薦

相關標簽