您好,登錄后才能下訂單哦!
這篇文章主要介紹Flink中有界數據與無界數據的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
有界數據集對開發者來說都很熟悉,在常規的處理中我們都會從Mysql,文本等獲取數據進行計算分析。我們在處理此類數據時,特點就是數據是靜止不動的。也就是說,沒有再進行追加。又或者說再處理的當時時刻不考慮追加寫入操作。所以有界數據集又或者說是有時間邊界。在某個時間內的結果進行計算。那么這種計算稱之為批計算,批處理。Batch Processing
例如:計算當前訂單量。又或者是把當前mysql的數據讀取到文件中等。
對于某些場景,類似于Kafka持續的計算等都被認定為無界數據集,無界數據集是會發生持續變更的、連續追加的。例如:服務器信令、網絡傳輸流、實時日志信息等。對于此類持續變更、追加的數據的計算方式稱之為流計算。Streaming Processing
無界數據集與有界數據集有點類似于池塘和江河,我們在計算池塘中的魚的數量時只需要把池塘中當前所有的魚都計算一次就可以了。那么當前時刻,池塘中有多少條魚就是結果。無界數據集類似于江河中的魚,在奔流到海的過程中每時每刻都會有魚流過而進入大海。那么計算魚的數量就像是持續追加的。
有界數據集與無界數據集是一個相對模糊的概念,如果數據一條一條的經過處理引擎那么則可以認為是無界的,那么如果每間隔一分鐘、一小時、一天進行一次計算那么則認為這一段時間的數據又相對是有界的。有界的數據又可以把數據一條一條的通過計算引擎,造成無界的數據集。所以,有界數據集與無界數據集可以存在互換的。因此業內也就開始追尋 批流統一 的框架。
能夠同時實現批處理與流處理的框架有Apache Spark和Apache Flink,而Apache Spark的流處理場景是一個微批場景,也就是它會在特定的時間間隔發起一次計算。而不是每條都會觸發計算。也就是相當于把無界數據集切分為小量的有界數據。
Apache Flink基于有界數據集與無界數據集的特點,最終將批處理與流處理混合到同一套引擎當中,用戶使用Apache Flink引擎能夠同時實現批處理與流處理任務。
以上是“Flink中有界數據與無界數據的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。