Spark SQL 기본

📄 220120_(65) spark_sql

기본 _ import, parallelize(), toDF(), sqlCtx.createDataFrame(), sqlCtx.read.csv(), toPandas()
SQL 기본 구문
SQL 집계함수

🍫 예제

data1 = ['홍길동,1000','이순신,2000','임꺽정,3000',
         '김철수,4000','이황,5000','이이,6000']

yeje=sc.parallelize(data1)
yeje=yeje.map(lambda v:v.split(','))
yeje

PythonRDD[56] at RDD at PythonRDD.scala:53

yeje.collect()

[['홍길동', '1000'],
 ['이순신', '2000'],
 ['임꺽정', '3000'],
 ['김철수', '4000'],
 ['이황', '5000'],
 ['이이', '6000']]

yejedf=sqlCtx.createDataFrame(yeje, ['name','salary'])
yejedf.show()

+------+------+
|  name|salary|
+------+------+
|홍길동|  1000|
|이순신|  2000|
|임꺽정|  3000|
|김철수|  4000|
|  이황|  5000|
|  이이|  6000|
+------+------+

yejedf.createOrReplaceTempView('my2')