📄 220120_(65) spark_sql

🍫 예제

data1 = ['홍길동,1000','이순신,2000','임꺽정,3000',
         '김철수,4000','이황,5000','이이,6000']
  1. name salary 컬럼명을 가지는 데이터프레임을 만드시오
yeje=sc.parallelize(data1)
yeje=yeje.map(lambda v:v.split(','))
yeje

PythonRDD[56] at RDD at PythonRDD.scala:53

yeje.collect()
[['홍길동', '1000'],
 ['이순신', '2000'],
 ['임꺽정', '3000'],
 ['김철수', '4000'],
 ['이황', '5000'],
 ['이이', '6000']]
yejedf=sqlCtx.createDataFrame(yeje, ['name','salary'])
yejedf.show()
+------+------+
|  name|salary|
+------+------+
|홍길동|  1000|
|이순신|  2000|
|임꺽정|  3000|
|김철수|  4000|
|  이황|  5000|
|  이이|  6000|
+------+------+
yejedf.createOrReplaceTempView('my2')