您好,登錄后才能下訂單哦!
本節課主要內容:
1、RDD創建的幾種方式
2、RDD創建實戰
3、RDD內幕
RDD創建有很多種方式,以下幾種創建RDD的方式:
1、使用程序中的集合創建RDD,實際意義用于測試用;
2、使用本地文件系統創建RDD,測試大量數據的文件;
3、使用HDFS創建RDD,最常用的方式;
4、基于DB創建RDD;
5、基于NoSQL創建RDD,例如HBase;
6、基于S3創建RDD;
7、基于數據源創建RDD;
RDD實戰:
//通過集合方式創建RDD
val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//創建RDD
val rdd = sc.parallelize(0 to 100)
//1+2=3 3+3 = 6 6+4 = 10 ....
val sum = rdd.reduce(_ + _)
println(sum)
//通過HDFS上文件創建RDD
val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//創建RDD
val lines = sc.textFile("hdfs://Master:9000/data/README.md")
val words = lines.flatMap(line => line.split(" ")).map(line => (line, 1))
val wordCount = words.reduceByKey(_ + _)
wordCount.collect().foreach(println)
備注:
資料來源于:DT_大數據夢工廠
更多私密內容,請關注微信公眾號:DT_Spark
如果您對大數據Spark感興趣,可以免費聽由王家林老師每天晚上20:00開設的Spark永久免費公開課,地址YY房間號:68917580
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。