您好,登錄后才能下訂單哦!
本篇內容介紹了“Spark是什么”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
一、到底什么是Spark?
Spark是一個通用的大數據計算平臺,基于“One Stack to rule them all”的理念成功成為了一體化多元化的大數據處理平臺,輕松應對大數據處理中的實時流計算、SQL交互式查詢、機器學習和圖計算等:
Spark源于BDAS:
基于該技術堆棧,Spark目前已經成為大數據通用計算平臺:
二, Spark的速度為何如此之快?
首先我們看一下Hadoop經典的處理過程:
MapReduce在每次執行的時候都要從磁盤讀數據,計算完畢后都要把數據存放到磁盤上:
而Spark是基于內存的:
另外一方面,DAG也是Spark快的極為重要的原因,下面是一張DAG圖的示例:
大家也可以看一下網絡上一張描述DAG更多細節的圖片:
基于DAG,Spark具備了非常精致的作業調度系統:
DAG中的依賴有寬依賴和窄依賴之分:
在DAG圖中可以根據依賴對pipeline等優化操作:
基于RDD和DAG,并行計算整個Job:
“Spark是什么”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。