customCode
Definition
PySpark์ DataFrame ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์ฉ์ ์ ์ ์ฝ๋๋ฅผ ์ ๋ ฅ ํ ์ ์๋ค. ์ข์ธก [๋ฐ์ดํฐ์ฒ๋ฆฌ(๊ณ ๊ธ)]๋ ธ๋ ์ค [customCode]๋ ธ๋๋ฅผ drag & drop ํฉ๋๋ค. Property ํจ๋์ [๋๋ณด๊ธฐ+] ๋ฒํผ์ ๋๋ฅด๋ฉด ์ ๋ ฅ๊ฐ๋ฅํ ์ ์ฒด Property ํญ๋ชฉ์ ๋ณผ ์ ์์ต๋๋ค.
Set
[setting], [parameter] ์ค์ ์ [์ํฌํ๋ก์ฐ ์์ฑ] > [์ค์ ]์ ์ฐธ๊ณ ํฉ๋๋ค.
property
[Node Description] ์์ฑ ์ค์ธ ๋
ธ๋๋ช
์
๋ ฅ
- code : Dataframe์์ ์ฌ์ฉ ๊ฐ๋ฅํ ํจ์๊ฐ ํฌํจ๋ ์ฝ๋(filter(), drop(), limit() ๋ฑ) ์์ฑ
- variableName : ๋ณ์๋ช ์ ๋ ฅ
- variableType : ๋ณ์ํ์ ์ ๋ ฅ (spark DF, pandas DF, RDD)
- overwriteSchema : ์คํ๊ฒฐ๊ณผ์ ๋ํ ์คํค๋ง๋ฅผ ์ฌ์ ์(์ฒดํฌํ์ง ์์ ๊ฒฝ์ฐ ์ด์ ์คํค๋ง๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํจ)
- newSchema
Note
dataset ๋ณ๊ฒฝ ๊ฐ๋ฅ (1์ค ์ ๋ ฅ๋ง ๊ฐ๋ฅ)
- ex. withColumn('temp_filled_spark', filled_column)
Example
HDFS ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ PySpark์ limit() ํจ์๋ฅผ ์ด์ฉํ์ฌ 3๊ฐ ๋ฐ์ดํฐ๋ง ํ์ํ๋ ์ํฌํ๋ก์ฐ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
- [HDFS๋ถ๋ฌ์ค๊ธฐ], [customCode] ๋
ธ๋๋ฅผ Designer์ Drag & Dropํ์ฌ ์ํฌํ๋ก์ฐ ์์ฑ
- [customCode]๋
ธ๋์ ์๋์ ๊ฐ์ด ์
๋ ฅ ํ snapshot ํด๋ฆญ