spark基礎-rdd特性

發布時間：2020-07-11 19:31:44 來源：網絡閱讀：346 作者：xiao酒窩欄目：大數據

RDD特性：

1.RDD是spark提供的核心抽象，全稱：Resillient Distributed Dataset,即彈性分布式數據集。

2.RDD在抽象上來說是一種元素集合，包含了數據。它是被分區的，氛圍多個分區，每個分區分布在集群中的不同節點上，從而讓RDD中的數據可以并行操作（分布式數據集）

3.RDD通常通過Hadoop上的文件來創建。有時也可以通過應用程序中的集合賴床見。

4.RDD最重要的特性就是提供了容錯性，可以從節點失敗中恢復過來。即：如果某個節點的RDD partition因為節點故障導致數據丟失，那么RDD會自動通過自己的數據來源重新計算該partitin。

5.RDD的每個partition在spark節點上，默認都是放在內存中，但是如果內存中放不下這么多數據，多出來的數據，就會把partition中的部分數據寫在磁盤上，進而保存。對于用戶來說，并不知道RDD內存數據存儲在哪里。RDD的這種自動進行內存和詞牌之間的切換機制，就是RDD的彈性特點所在。

一個RDD在邏輯上抽象地代表了一個HDFS文件。但是實際上是唄分區的，氛圍多個分區，多個分區散落在spark集群中，不同的節點上。

Spark核心編程是什么：

首先，定義初始的RDD，就是說，要定義訂一個數據從哪里來。

第二：定義對RDD的計算操作，這個在spark里稱為算子

第三：就是循環往復的過程第一次計算完成后，數據就會到了新的一批節點上，變成了新的RDD，然后再次反復，針對新的RDD定義算子操作。

第四：獲得最終的數據，將數據保存起來。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看