您好,登錄后才能下訂單哦!
這篇文章主要介紹“spark線上用哪個版本好”,在日常操作中,相信很多人在spark線上用哪個版本好問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”spark線上用哪個版本好”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
Q1:spark線上用什么版本好?
建議從最低使用的Spark 1.0.0版本,Spark在1.0.0開始核心API已經穩定;
從功能的角度考慮使用最新版本的Spark 1.0.2也是非常好的,Spark 1.0.2在Spark 1.0.1的基礎上做了非常多的改進;
Q2:希望可以細細講講推薦系統
推薦系統是機器學習中主要用武之地,Spark亞太研究院決勝大數據時代100期公益大講堂后續會至少開設三期專題細細講解;
Q3:用yarn mesos standalone 這幾種方式那種用在線上好?spark線上用什么版本好?
如果以前沒有部署過其它的大數據集群,集群中的計算框架只有Spark,建議直接使用Standalone,簡潔而高效,這樣有利于獲得最大化的集群執行效率;
如果集群中在運行Spark計算平臺的同時還運行了Hadoop的MapReduce、Storm等其它框架,建議使用mesos或者yarn;
在中國建議使用Yarn,因為淘寶已經在生產環境下大規模的使用了Yarn,同時Yarn有非常的中文資料;
Q4:機器學習是不是需要很深的數學功底還是別人實現了 能運行跑起來就ok啦??
Spark的MLLib極大的簡化了機器學習庫的使用,如果只是簡單的使用,不要數學功底,只需要按照官方的示例直接使用即可。
如果進行復制的算法實現,需要數學功底,例如線性代數、統計學等
Q5:還是要深入學習機器學習的那些算法?
從實際應用的角度考慮,最重要的機器學習算法時協同過濾,基于協同過濾的推薦系統在應用系統中有廣泛的應用,需要最為第一重點掌握;
分類、聚類、線性回歸等也是非常常用而重要的;
Q6:請教下,如果目前應用主要是結構化數據的ORCALE,語言是PLSQL,轉換到SPARKSQL是否難度很大,需要完全代碼重寫呢?
在實際生產環境下,數據和大數據系統是并行存在的,數據庫一般直接負責線上交互,大數據系統負責數據分析、實時流處理、交互式查詢等;
如果熟練使用PLSQL,可以輕而易舉的掌握Spark SQL
到此,關于“spark線上用哪個版本好”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。