亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何進行ApacheHudi與其他類似系統的比較

發布時間:2021-12-10 09:59:14 來源:億速云 閱讀:118 作者:柒染 欄目:大數據

如何進行ApacheHudi與其他類似系統的比較,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

Apache Hudi填補了在DFS上處理數據的巨大空白,并可以和一些大數據技術很好地共存。然而,將Hudi與一些相關系統進行對比,來了解Hudi如何適應當前的大數據生態系統,并知曉這些系統在設計中做的不同權衡仍將非常有用。

Kudu

Apache Kudu是一個與Hudi具有相似目標的存儲系統,該系統通過對 upserts支持來對PB級數據進行實時分析。一個關鍵的區別是Kudu還試圖充當OLTP工作負載的數據存儲,而Hudi并不希望這樣做。因此,Kudu不支持增量拉取(截至2017年初),而Hudi支持增量處理。

Kudu與分布式文件系統抽象和HDFS完全不同,它自己的一組存儲服務器通過RAFT相互通信。與之不同的是,Hudi旨在與底層Hadoop兼容的文件系統(HDFS,S3或Ceph)一起使用,并且沒有自己的存儲服務器群,而是依靠Apache Spark來完成繁重的工作。因此,Hudi可以像其他Spark作業一樣輕松擴展,而Kudu則需要硬件和運營支持,特別是HBase或Vertica等數據存儲系統。到目前為止,我們還沒有做任何直接的基準測試來比較Kudu和Hudi。但是,如果我們要使用CERN,我們預期Hudi在攝取parquet文件上有更卓越的性能。

Hive事務

Hive事務/ACID是另一項類似的工作,它試圖在ORC文件格式之上的實現 讀取時合并的存儲層。可以理解,此功能與Hive以及LLAP之類的其他工作緊密相關。Hive事務不提供Hudi提供的讀取優化存儲選項或增量拉取。在實現選擇方面,Hudi充分利用了類似Spark的處理框架的功能,而Hive事務特性則在用戶或Hive Metastore啟動的Hive任務/查詢的下實現。根據我們的生產經驗,與其他方法相比,將Hudi作為庫嵌入到現有的Spark管道中要容易得多,并且操作不會太繁瑣。Hudi還設計用于與Presto/Spark等非Hive引擎合作,并計劃引入除parquet以外的文件格式。

HBase

盡管HBase最終是OLTP工作負載的鍵值存儲層,但由于與Hadoop的相似性,用戶通常傾向于將HBase與分析相關聯。鑒于HBase經過嚴格的寫優化,它支持開箱即用的亞秒級更新,Hive-on-HBase允許用戶查詢該數據。但是,就分析工作負載的實際性能而言,Parquet/ORC之類的混合列式存儲格式可以輕松超越HBase,因為這些工作負載主要是讀取繁重的工作。Hudi彌補了更快的數據與分析存儲格式之間的差距。從運營的角度來看,與管理分析使用的HBase region服務器集群相比,為用戶提供可更快給出數據的庫更具可擴展性。最終,HBase不像Hudi這樣重點支持 提交時間增量拉取之類的增量處理原語。

流式處理

一個普遍的問題:"Hudi與流處理系統有何關系?",我們將嘗試回答。簡而言之,Hudi可以與當今的批處理( 寫時復制存儲)和流處理( 讀時合并存儲)作業集成,以將計算結果存儲在Hadoop中。對于Spark應用程序,這可以通過將Hudi庫與Spark/Spark流式DAG直接集成來實現。在非Spark處理系統(例如Flink、Hive)情況下,可以在相應的系統中進行處理,然后通過Kafka主題/DFS中間文件將其發送到Hudi表中。從概念上講,數據處理管道僅由三個部分組成:輸入處理輸出,用戶最終針對輸出運行查詢以便使用管道的結果。Hudi可以充當將數據存儲在DFS上的輸入或輸出。Hudi在給定流處理管道上的適用性最終歸結為你的查詢在Presto/SparkSQL/Hive的適用性。

更高級的用例圍繞增量處理的概念展開,甚至在 處理引擎內部也使用Hudi來加速典型的批處理管道。例如:Hudi可用作DAG內的狀態存儲(類似Flink使用的[rocksDB(https://ci.apache.org/projects/flink/flink-docs-release-1.2/ops/state_backends.html#the-rocksdbstatebackend))。這是路線圖上的一個項目并將最終以Beam Runner的形式呈現。

Iceberg & Delta

對于與Iceberg和Delta的對比,可以看如下對比圖(2019年9月之前由Qubole技術博客提供)。

如何進行ApacheHudi與其他類似系統的比較

Hudi社區并不想通過官方文檔方式來比較與同為數據湖開源框架Iceberg和Delta的區別,因為這可能會讓開發者覺得Hudi立場不中立,為保持更為中立的立場,社區更愿意將此比較交給開發者,讓他們去選擇適合自己的框架。

關于如何進行ApacheHudi與其他類似系統的比較問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

平顺县| 吉木乃县| 蒲城县| 皋兰县| 庆安县| 乌审旗| 肇东市| 孙吴县| 牙克石市| 盈江县| 开封县| 榆树市| 宜宾市| 吉安市| 大姚县| 汾西县| 黎川县| 崇左市| 黔西县| 介休市| 襄汾县| 勃利县| 霞浦县| 安福县| 宜黄县| 桐城市| 嘉兴市| 万载县| 六安市| 锡林浩特市| 鄂温| 寻甸| 荔浦县| 柘城县| 昆山市| 巴彦县| 河东区| 凭祥市| 平湖市| 九龙坡区| 肇源县|