文章詳情頁

SparkSQL使用IDEA快速入門DataFrame與DataSet的完美教程

瀏覽：151日期：2024-07-12 15:04:25

目錄1.使用IDEA開發Spark SQL1.1創建DataFrame/DataSet1.1.1指定列名添加Schema1.1.2StructType指定Schema1.1.3反射推斷Schema1.使用IDEA開發Spark SQL1.1創建DataFrame/DataSet

1、指定列名添加Schema

2、通過StrucType指定Schema

3、編寫樣例類，利用反射機制推斷Schema

1.1.1指定列名添加Schema

//導包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代碼// 1.創建SparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()// 2.使用spark 獲取sparkContext 上下文對象 val sc = spark.sparkContext// 3.使用SparkContext 讀取文件并按照空格切分返回RDD val rowRDD: RDD[(Int, String, Int)] = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.導入隱式類 import spark.implicits._//5.將RDD 轉換為DataFrame 指定元數據信息 val dataFrame = rowRDD.toDF('id','name','age')//6.數據展示 dataFrame.show()1.1.2StructType指定Schema

//導包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//編寫代碼//1.實例SparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()//2.根據SparkSession獲取SparkContext 上下文對象 val sc = spark.sparkContext// 3.使用SparkContext讀取文件并按照空開切分并返回元組 val rowRDD = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.導入隱式類 import spark.implicits._//5.使用StructType 添加元數據信息 val schema = StructType(List( StructField('id', IntegerType, true), StructField('name', StringType, true), StructField('age', IntegerType, true) ))//6.將數據與元數據進行拼接返回一個DataFrame val dataDF = spark.createDataFrame(rowRDD,schema)//7.數據展示 dataDF.show()1.1.3反射推斷Schema

//導包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定義單例對象 case class Person(Id:Int,name:String,age:Int)//編寫代碼//1.實例sparkSession val spark = SparkSession.builder().master('local[*]').appName('sql').getOrCreate()//2.通過sparkSession獲取sparkContext 上下文對象 val sc = spark.sparkContext//3.通過sparkContext 讀取文件并按照空格切分將每一個數據保存到person中 val rowRDD: RDD[Person] = sc.textFile('./data/person.txt').map(_.split(' ')).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.導入隱式類 import spark.implicits._//5.將rowRDD轉換為dataFrame val dataFrame = rowRDD.toDF() //6.數據展示 dataFrame.show()

到此這篇關于SparkSQL使用IDEA快速入門DataFrame與DataSet的文章就介紹到這了,更多相關SparkSQL快速入門內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

IDEA

上一條：IDEA中Services欄不顯示的解決方案小結下一條：IDEA 開發配置SparkSQL及簡單使用案例代碼

相關文章：

1. jsp實現登錄驗證的過濾器2. Xml簡介_動力節點Java學院整理3. phpstudy apache開啟ssi使用詳解4. ASP.NET MVC使用異步Action的方法5. uniapp解決軟鍵盤彈出問題方法詳解6. 爬取今日頭條Ajax請求7. jsp文件下載功能實現代碼8. ajax實現頁面的局部加載9. uni-app結合.NET 7實現微信小程序訂閱消息推送10. AJAX的跨域問題解決方案

排行榜

					
					phpstudy apache開啟ssi使用詳解
IntelliJ IDEA導入jar包的方法
.Net加密神器Eazfuscator.NET?2023.2?最新版使用教程
idea刪除項目的操作方法
java類加載機制、類加載器、自定義類加載器的案例
SSM框架整合之Spring+SpringMVC+MyBatis實踐步驟
Spring中基于xml的AOP的詳細步驟
詳解Python openpyxl庫的基本應用
JavaScript圖片旋轉效果實現方法詳解
jsp文件下載功能實現代碼
針對初學PHP者的疑難問答(1)