customCode

customCode

PySpark์˜ DataFrame ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์‚ฌ์šฉ์ž ์ •์˜ ์ฝ”๋“œ๋ฅผ ์ž…๋ ฅ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ขŒ์ธก [๋ฐ์ดํ„ฐ์ฒ˜๋ฆฌ(๊ณ ๊ธ‰)]๋…ธ๋“œ ์ค‘ [customCode]๋…ธ๋“œ๋ฅผ drag & drop ํ•œ๋‹ค. Property ํŒจ๋„์˜ [๋”๋ณด๊ธฐ+] ๋ฒ„ํŠผ์„ ๋ˆ„๋ฅด๋ฉด ์ž…๋ ฅ๊ฐ€๋Šฅํ•œ ์ „์ฒด Property ํ•ญ๋ชฉ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

preadv009

dataset ๋ณ€๊ฒฝ ๊ฐ€๋Šฅ (1์ค„ ์ž…๋ ฅ๋งŒ ๊ฐ€๋Šฅ) ex. withColumn('temp_filled_spark', filled_column)

code PySpark์˜ DataFrame ํ•จ์ˆ˜ 1์ค„ ์ž…๋ ฅ overwriteSchema ์‹คํ–‰ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์Šคํ‚ค๋งˆ ์ €์žฅ ์—ฌ๋ถ€

  1. code : Dataframe์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ•จ์ˆ˜๊ฐ€ ํฌํ•จ๋œ ์ฝ”๋“œ(filter(), drop(), limit() ๋“ฑ) ์ž‘์„ฑ
  2. variableName : ๋ณ€์ˆ˜๋ช… ์ž…๋ ฅ
  3. variableType : ๋ณ€์ˆ˜ํƒ€์ž… ์ž…๋ ฅ
  4. overwriteSchema : ์‹คํ–‰๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์Šคํ‚ค๋งˆ๋ฅผ ์žฌ์ •์˜(์ฒดํฌํ•˜์ง€ ์•Š์„ ๊ฒฝ์šฐ ์ด์ „ ์Šคํ‚ค๋งˆ๋ฅผ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•จ)
  5. newSchema

preadv010