您好,登錄后才能下訂單哦!
本期內容
技術實現解析
實現實戰
SparkStreaming的DStream提供了一個dstream.foreachRDD方法,該方法是一個功能強大的原始的API,它允許將數據發送到外部系統。然而,重要的是要了解如何正確有效地使用這種原始方法。一些常見的錯誤,以避免如下:
寫數據到外部系統,需要建立一個數據連接對象(例如TCP連接到遠程的服務器),使用它將數據發送到外部存儲系統。為此開發者可能會在Driver中嘗試創建一個連接,然后在worker中使用它來保存記錄到外部數據。例如如下scala代碼:
dstream.foreachRDD { rdd => val connection = createNewConnection() // executed at the driver rdd.foreach { record => connection.send(record) // executed at the worker }}
上面的代碼是一個錯誤的演示,因為連接是在Driver中創建的,而寫數據是在worker中完成的。此時連接就需要被序列化然后發送到worker中。但是我們知道,連接的信息是不能被序列化和發序列化的(不同的機器連接服務器需要使用不同的服務器端口,即便連接被序列化了也不能使用)
進而我們可以將連接移動到worker中實現,代碼如下:
dstream.foreachRDD { rdd => rdd.foreach { record => val connection = createNewConnection() connection.send(record) connection.close() }}
但是此時,每處理一條數據記錄,就需要連接一次外部系統,對于性能來說是個嚴重的問題。這也不是一個完美的實現。
我們可以將代碼做如下的改進:
dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => val connection = createNewConnection() partitionOfRecords.foreach(record => connection.send(record)) connection.close() }}
這樣一個partition,只需連接一次外部存儲。性能上有大幅度的提高。但是不同的partition之間不能復用連接。我們可以使用連接池的方式,使得partition之間可以共享連接。代碼如下:
dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords => // ConnectionPool is a static, lazily initialized pool of connections val connection = ConnectionPool.getConnection() partitionOfRecords.foreach(record => connection.send(record)) ConnectionPool.returnConnection(connection) // return to the pool for future reuse }}
下面我們使用SparkStreaming實現將數據寫到MySQL中:
在pom.xml中加入如下依賴包
<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version> </dependency> <dependency> <groupId>commons-dbcp</groupId> <artifactId>commons-dbcp</artifactId> <version>1.4</version> </dependency>
在MySql中創建數據庫和表
mysql> create database spark; Query OK, 1 row affected (0.01 sec) mysql> use spark; Database changed mysql> show tables; Empty set (0.01 sec) mysql> create table searchKeyWord(insert_time date,keyword varchar(30),search_count integer); Query OK, 0 rows affected (0.05 sec)
使用Java編寫一個數據庫連接池類
package com.dt.spark.common; import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.ResultSet; import org.apache.commons.dbcp.BasicDataSource; import org.apache.log4j.Logger; /** * Description: 數據庫連接池類 * @author dinglq */ public class ConnectPool { private static Logger log = Logger.getLogger(ConnectPool.class); private static BasicDataSource bs = null; /** * 創建數據源 * @return */ public static BasicDataSource getDataSource() throws Exception{ if(bs==null){ bs = new BasicDataSource(); bs.setDriverClassName("com.mysql.jdbc.Driver"); bs.setUrl("jdbc:mysql://spark-master:3306/spark"); bs.setUsername("root"); bs.setPassword("vincent"); bs.setMaxActive(200);//設置最大并發數 bs.setInitialSize(30);//數據庫初始化時,創建的連接個數 bs.setMinIdle(50);//最小空閑連接數 bs.setMaxIdle(200);//數據庫最大連接數 bs.setMaxWait(1000); bs.setMinEvictableIdleTimeMillis(60*1000);//空閑連接60秒中后釋放 bs.setTimeBetweenEvictionRunsMillis(5*60*1000);//5分鐘檢測一次是否有死掉的線程 bs.setTestOnBorrow(true); } return bs; } /** * 釋放數據源 */ public static void shutDownDataSource() throws Exception{ if(bs!=null){ bs.close(); } } /** * 獲取數據庫連接 * @return */ public static Connection getConnection(){ Connection con=null; try { if(bs!=null){ con=bs.getConnection(); }else{ con=getDataSource().getConnection(); } } catch (Exception e) { log.error(e.getMessage(), e); } return con; } /** * 關閉連接 */ public static void closeCon(ResultSet rs,PreparedStatement ps,Connection con){ if(rs!=null){ try { rs.close(); } catch (Exception e) { log.error("關閉結果集ResultSet異常!"+e.getMessage(), e); } } if(ps!=null){ try { ps.close(); } catch (Exception e) { log.error("預編譯SQL語句對象PreparedStatement關閉異常!"+e.getMessage(), e); } } if(con!=null){ try { con.close(); } catch (Exception e) { log.error("關閉連接對象Connection異常!"+e.getMessage(), e); } } } }
編寫Spark代碼:
package com.dt.spark.streaming import com.dt.spark.common.ConnectPool import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} /** * 以網站熱詞排名為例,將處理結果寫到MySQL中 * Created by dinglq on 2016/5/3. */ object WriteDataToMySQL { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WriteDataToMySQL") val ssc = new StreamingContext(conf,Seconds(5)) // 假設socket輸入的數據格式為:searchKeyword,time val ItemsStream = ssc.socketTextStream("spark-master",9999) // 將輸入數據變成(searchKeyword,1) var ItemPairs = ItemsStream.map(line =>(line.split(",")(0),1)) val ItemCount = ItemPairs.reduceByKeyAndWindow((v1:Int,v2:Int)=> v1+v2,Seconds(60),Seconds(10)) //ssc.checkpoint("/user/checkpoints/") // val ItemCount = ItemPairs.reduceByKeyAndWindow((v1:Int,v2:Int)=> v1+v2,(v1:Int,v2:Int)=> v1-v2,Seconds(60),Seconds(10)) /** * 接下來需要對熱詞的頻率進行排序,而DStream沒有提供sort的方法。那么我們可以實現transform函數,用RDD的sortByKey實現 */ val hottestWord = ItemCount.transform(itemRDD => { val top3 = itemRDD.map(pair => (pair._2, pair._1)) .sortByKey(false).map(pair => (pair._2, pair._1)).take(3) ssc.sparkContext.makeRDD(top3) }) hottestWord.foreachRDD(rdd => { rdd.foreachPartition(partitionOfRecords =>{ val conn = ConnectPool.getConnection conn.setAutoCommit(false); //設為手動提交 val stmt = conn.createStatement(); partitionOfRecords.foreach( record => { stmt.addBatch("insert into searchKeyWord (insert_time,keyword,search_count) values (now(),'"+record._1+"','"+record._2+"')"); }) stmt.executeBatch(); conn.commit(); //提交事務 }) }) ssc.start() ssc.awaitTermination() ssc.stop() } }
打開netcat發送數據
root@spark-master:~# nc -lk 9999 hadoop,1111 spark,2222 spark,3333 hadoop,1111 spark,2222 spark,3333 hadoop,1111 spark,2222 spark,3333 hadoop,1111 spark,2222 spark,3333
運行spark代碼
root@spark-master:~# /usr/local/spark/spark-1.6.0-bin-hadoop2.6/bin/spark-submit --class com.dt.spark.streaming.WriteDataToMySQL --jars=mysql-connector-java-5.1.38.jar,commons-dbcp-1.4.jar ./spark.jar
查看數據庫中的結果:
mysql> select * from searchKeyWord; +-------------+---------+--------------+ | insert_time | keyword | search_count | +-------------+---------+--------------+ | 2016-05-03 | spark | 4 | | 2016-05-03 | hadoop | 2 | | 2016-05-03 | spark | 4 | | 2016-05-03 | hadoop | 2 | +-------------+---------+--------------+ 4 rows in set (0.00 sec)
備注:
1、DT大數據夢工廠微信公眾號DT_Spark
2、IMF晚8點大數據實戰YY直播頻道號:68917580
3、新浪微博: http://www.weibo.com/ilovepains
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。