亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何進行Spark的Failover機制全解析

發布時間:2021-12-17 09:13:24 來源:億速云 閱讀:178 作者:柒染 欄目:大數據

如何進行Spark的Failover機制全解析 ,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

所謂容錯是指一個系統的部分出現錯誤的情況還能夠持續地提供服務,不會因為一些細微的錯誤導致系統性能嚴重下降或者出現系統癱瘓。       

在一個集群出現機器故障、網絡問題等是常 態,尤其集群達到較大規模后,很可能較頻繁出現機器故障不能進行提供服務,因此對于分布式集群需要進行容錯設計。      

Spark在設計之初考慮到這種情況,所以它能夠實現高容錯,以下將從ExecutorWorker和Master的異常處理來介紹。      

   
Executor 異常    
Spark支持多種運行模式,這些運行模式中的集群管理器會為任務分配運行資源,在運行資源中啟動Executor,由Executor是負責執行任務的運行,最終把任務運行狀態發送給Driver。     

   
下面將以獨立運行模式分析Executor出現異常的情況,其運行結構如圖所示,其中虛線為正常運行中進行消息通信線路,實線為異常處理步驟。    
如何進行Spark的Failover機制全解析    
1. 首先看 Executor 的啟動過程:在集群中由 Master 給應用程序分配運行資源后,然后在 Worker中啟動 ExecutorRunner ,而 ExecutorRunner 根據當前的運行模式啟動 CoarseGrainedExecutorBackend 進程,當該進程會向Driver發送注冊Executor信息,如果注冊成功,則 CoarseGrainedExecutorBackend 在其內部啟動 Executor。Executor 由 ExecutorRunner 進行管理,當Executor出現異常時(如所運行容器 CoarseGrainedExecutorBackend 進程異常退出等), 由 ExecutorRunner 捕獲該異常并發送 ExecutorStateChanged 消息給 Worker。    

   
2. Worker 接收到 ExecutorStateChanged 消息時,在 Worker 的 handleExecutorStateChanged 方法中,根據Executor狀態進行信息更新,同時把Executor狀態信息轉發給Master。    

   
3. Master接收到Executor狀態變化消息后,如果發現Executor出現異常退出,則調用 Master.schedule 方法,嘗試獲取可用的 Worker 節點并啟動 Executor,而這個 Worker 很可能不是失敗之前運行Executor的Worker節點。該嘗試系統會進行10次,如果超過10次,則標記該應用運行失敗并移除集群中移除該應用。這種限定失敗次數是為了避免提交的應用程序存在 Bug 而反復提交,進而擠占集群寶貴的資源。    

   
Worker 異常    
Spark獨立運行模式采用的是Master/Slave的結構,其中Slave是有Worker來擔任的,在運行的時候會發送心跳給Master,讓Master知道Worker的實時狀態,另一方面Master也會檢測注冊的Worker是否超時,因為在集群運行過程中,可能由于機器宕機或者進程被殺死等原因造成Worker進程異常退出。下面將分析Spark集群如何處理這種情況,其處理流程如圖所示。    
如何進行Spark的Failover機制全解析    
1. 這里需要了解Master是如何感知到Worker超時?在Master接收Worker心跳的同時,在其啟動方法onStart中啟動檢測Worker超時的線程,其代碼如下:    
       
       
       checkForWorkerTimeOutTask = forwardMessageThread. scheduleAtFixedRate (new Runnable { 
        override def run (): Unit = Utils.tryLogNonFatalError (
        //非自身發送消息CheckForWorkerTimeOut,調用timeOutDeadWorkers方法進行檢測
        self.send(CheckForWorkerTimeOut)
        }
        }, 0, WORKER_TIMEOUT_MS, TimeUnit.MILLISECONDS)
   

   
2. 當Worker出現超時時,Master調用timeOutDeadWorkers方法進行處理,在處理時根據Worker運行的是Executor和Driver分別進行處理。    
  • 如果是 Executor, Master 先把該 Worker 上運行的 Executor 發送消息 ExecutorUpdated 給對應的 Driver,告知 Executor 已經丟失,同時把這些 Executor 從其應用程序運行列表中刪除。另外,相關Executor的異常也需要按照前一小節進行處理。

  • 如果是Driver,則判斷是否設置重新啟動。如果需要,則調用Master.schedule方法進行調度,分配合適節點重啟Driver;如果不需要重啟,則刪除該應用程序。


   
Master 異常    
Master作為Spark獨立運行模式中的核心,如果Master出現異常,則整個集群的運行情況和資源將無法進行管理,整個集群將處于“群龍無首”的狀況。很幸運的是,Spark在設計時考 慮了這種情況,在集群運行的時候,Master將啟動一個或多個Standby Master,當 Master 出現異常的時候,Standby Master 將根據一定規則確定其中一個接管 Master。    
如何進行Spark的Failover機制全解析    
在獨立運行模式中, Spark支持如下幾種策略,可以在配置文件spark-env.sh配置項spark .deploy, recovery Mode進行 設置,默認為NONE。    
  • ZOOKEEPER:集群的元數據持久化到ZooKeeper中,當Master出現異常時.ZooKeeper 會通過選舉機制選舉出新的Master,新的Master接管時需要從ZooKeeper獲取持久化 信息并根據這些信息恢復集群狀態。具體結構如圖4-13所示。

  • FILESYSTEM:集群的元數據持久化到本地文件系統中,當Master出現異常時,只要 在該機器上重新啟動Master,啟動后新的Master獲取持久化信息并根據這些信息恢復 集群狀態。

  • CUSTOM:自定義恢復方式,對StandaloneRecoveryModeFactory抽象類進行實現并把 該類配置到系統中,當Master出現異常時,會根據用戶自定義的方式進行恢復集群狀 態。

  • NONE:不持久化集群的元數據,當Master出現異常時,新啟動的Master不進行恢復 集群狀態,而是直接接管集群。

關于如何進行Spark的Failover機制全解析 問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

安西县| 青州市| 济阳县| 宽城| 库伦旗| 政和县| 巨野县| 湘阴县| 定南县| 乌拉特前旗| 吕梁市| 东兰县| 兴安盟| 阿坝县| 台州市| 甘德县| 抚顺县| 余江县| 西昌市| 吉木乃县| 谷城县| 岚皋县| 绥滨县| 三明市| 黄大仙区| 惠安县| 东平县| 安仁县| 平昌县| 和静县| 台江县| 西藏| 射洪县| 色达县| 满洲里市| 鹤壁市| 重庆市| 遂昌县| 利辛县| 祁连县| 寿光市|