亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

SparkStreaming基礎理論

發布時間:2020-07-02 18:27:28 來源:網絡 閱讀:719 作者:原生zzy 欄目:大數據

一、Spark Streaming的介紹

(1)為什么要有Spark Streaming?

   Hadoop 的 MapReduce 及 Spark SQL 等只能進行離線計算,無法滿足實時性要求較高的業務 需求,例如實時推薦、實時網站性能分析等,流式計算可以解決這些問題。目前有三種比較 常用的流式計算框架,它們分別是 Storm,Spark Streaming 和 fink。

(2)Spark Streaming是什么?

SparkStreaming基礎理論
   Spark Streaming,其實就是一種Spark提供的,對于大數據,進行實時計算的一種框架。它的底層,其實,也是基于我們之前講解的Spark Core的。基本的計算模型,還是基于內存的大數據實時計算模型。而且,它的底層的核心組件還是我們在Spark Core中經常用到的RDD。針對實時計算的特點,在RDD之上,進行了一層封裝,叫做DStream。其底層還是基于RDD的。所以,RDD是整個Spark技術生態中的核心。
   Spark streaming支持的數據輸入源很多,如:Kafka、Flume、Twitter、ZeroMQ 和簡單的 TCP 套接字等等。數據輸入后可以用spark的高度抽象語:map、reduce、join、window 等進行運算。而結果也能保存在很多地方。如HDFS, 數據庫等。另外,spark streaming也能和MLlib(機器學習)以及 Graphx 完美融合。

(3)Spark Streaming的優勢

易用
SparkStreaming基礎理論
容錯
SparkStreaming基礎理論
與spark體系無縫整合
SparkStreaming基礎理論

二、Spark Streaming的核心概念

SparkStreaming基礎理論
   接收實時輸入數據流,然后將數據拆分成多個batch,比如每收集1秒的數據封裝為一個batch,然后將每個batch交給Spark的計算引擎進行處理,最后會生產出一個結果數據流,其中的數據,也是由一個一個的batch所組成的。

(1)相關術語介紹:

  離散流DStream:這是spark streaming對內部持續的實時數據流的抽象描述,即我們處理的一個實時數據,在sparkstreaming中對應一個DStream實例。
  批數據:這是化整為零的第一步,將實時數據抽象,以時間片為單位進行分批,將流處理轉化為時間片,數據的批處理,隨著持續時間的推移,這些處理結果就形成了對應的結果數據流。
  時間片或批處理時間間隔:人為地對流數據進行定量的標準,以時 間片作為我們拆分流數據的依據。一個時間片的數據對應一個 RDD 實例。
SparkStreaming基礎理論
窗口長度:一個窗口覆蓋的數據流的時間長度,必須是批處理時間間隔的倍數
滑動周期:前一個窗口到后一個窗口所經過的時間長度,必須是批處理時間間隔的倍數
  InputDStream:一個 InputDStream 是一個特殊的 DStream,表示第一次被加載到實時數據流中的原始數據。

(2)DStream的相關介紹:

SparkStreaming基礎理論
  Discretized Stream 是 Spark Streaming 的基礎抽象,代表持續性的數據流和經過各種 Spark 原 語操作后的結果數據流。在內部實現上,DStream 是一系列連續的 RDD 來表示。DStream 是 連續數據的離散化表示,DStream 中每個離散片段都是一個 RDD,DStream 可以變換成另一 個 DStream。
  DStream對數據的操作也是按照RDD為單位來進行的:
SparkStreaming基礎理論

1)DStream的相關操作:

  DStream上的原語與RDD類似,分為:Transformations(轉換)和Output Operations(輸出,類似于action)。
由于DStream的操作與RDD極為類似,而且DStream底層就是封裝的RDD,所以這里簡單的介紹一下Transformations。
SparkStreaming基礎理論
注意:Transformations操作中有幾個極為重要的操作:updateStateByKey()、transform()、window()、foreachRDD()。以后的博文中為詳細介紹。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

芦山县| 柘荣县| 富锦市| 临泽县| 双牌县| 洪雅县| 河源市| 永嘉县| 岢岚县| 井研县| 静安区| 名山县| 高淳县| 保康县| 德钦县| 泗水县| 金沙县| 辛集市| 贵溪市| 荆州市| 南郑县| 新宾| 七台河市| 乐业县| 开阳县| 景宁| 湄潭县| 大足县| 施甸县| 赤水市| 永安市| 满城县| 昭觉县| 阳泉市| 乐至县| 侯马市| 娄烦县| 嘉黎县| 秦皇岛市| 合江县| 浮山县|