Spark examples源碼分析

發布時間：2021-12-16 16:42:06 來源：億速云閱讀：167 作者：iii 欄目：云計算

這篇文章主要介紹“Spark examples源碼分析”，在日常操作中，相信很多人在Spark examples源碼分析問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”Spark examples源碼分析”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

SparkSQLExample

private def runBasicDataFrameExample(spark: SparkSession): Unit = {

    val df = spark.read.json("hdfs://master:9000/sparkfiles/people.json")
    df.show()
    import spark.implicits._
    df.printSchema()
    df.select("name").show()
    df.select($"name", $"age" + 1).show()
    df.filter($"age" > 21).show()
    df.groupBy("age").count().show()
    df.createOrReplaceTempView("people")

val sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show()

}

people.json的文件內容如下所示：

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

首先是讀取文件，構建一個DataFrame，而DataFrame定義在package object sql當中，其實質上是Dataset[Row]的別名。

之后我們看一下df.show()，它的輸出是這個樣子的（真不嫌麻煩）：

Spark examples源碼分析

df.printSchema()輸出的是json的結構信息：

Spark examples源碼分析

df.select("name").show()，對于select方法而言，返回的還是一個DataFrame，當中只包含一列name。

df.select($"name", $"age" + 1).show()，返回一個DataFrame，所有人的年齡+1。

df.groupBy("age").count().show()，這行代碼我們需要詳細說一下，首先，groupBy的返回值是一個RelationalGroupedDataset， A set of methods for aggregations on a DataFrame, created by Dataset.groupBy. 當中提供了min，max，count等等聚合函數。count的結構又是一個DataFrame

最后一段很有趣，可以臨時創建一個view，然后用sql進行查詢。

df.createOrReplaceTempView("people")

val sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show()

到此，關于“Spark examples源碼分析”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注億速云網站，小編會繼續努力為大家帶來更多實用的文章！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Spark examples源碼分析

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

Spark examples源碼分析

猜你喜歡

最新資訊

相關推薦

相關標簽