pyspark
Definition
pyspark ์ฝ๋๋ฅผ ์์ฑํ์ฌ ์คํํ๋ ๋
ธ๋์ด๋ค. property ํจ๋ "3.source"์ pyspark ์ฝ๋๋ฅผ ์
๋ ฅํ๋ค. Source Editor ๋ฒํผ("3.source" ์ฐ์ธก ์ฒซ ๋ฒ์งธ ๋ฒํผ) ํด๋ฆญ ์ Editor๊ฐ ํ์
๋๋ฉฐ ๋ณด๋ค ํฐ ํ๋ฉด์์ ์ฝ๋๋ฅผ ์์ฑํ ์ ์๋ค. ๋ํ Jupyter ์ฌ์ดํธ ๋ฐ๋ก๊ฐ๊ธฐ("3.source" ์ฐ์ธก ๋ ๋ฒ์งธ ๋ฒํผ) ์ ํ์ Jupyter Notebook์ด ์ด๋ฆฌ๋ฉฐ, Notebook์์ interactiveํ๊ฒ ์์
ํ ์ ์๋ค.
[Flow๊ตฌ์ฑ]๋
ธ๋ ์ค [pyspark]๋
ธ๋๋ฅผ drag & drop ํ ํ Property ํญ๋ชฉ์ ์
๋ ฅํ๋ค. Property ํจ๋์ [๋๋ณด๊ธฐ+] ๋ฒํผ์ ๋๋ฅด๋ฉด ์
๋ ฅ๊ฐ๋ฅํ ์ ์ฒด Property ํญ๋ชฉ์ ๋ณผ ์ ์๋ค.
Set
[setting], [scheduler], [parameter] ์ค์ ์ [์ํฌํ๋ก์ฐ ์์ฑ] > [์ค์ ]์ ์ฐธ๊ณ ํ๋ค.
property
[Node Description] ์์ฑ ์ค์ธ ๋ ธ๋๋ช ์ ๋ ฅ
- Node_description : ์์ฑ ์ค์ธ ๋ ธ๋๋ช ์ ๋ ฅ
- version : spark ๋ฒ์ ์ ๋ ฅ(Spark2๊ฐ ๊ณ ์ ๊ฐ์)
- appName : appName ์ ๋ ฅ
- source : ์คํํ source code ์ ๋ ฅ
- [Source Editor]๋ฅผ ์ ํํด์ ํ์ ๋ editor๋ฅผ ํตํด ์ฝ๋ฉ ๊ฐ๋ฅ
- [Jupyter ๋ฐ๋ก๊ฐ๊ธฐ]๋ฅผ ์ ํํด์ jupyter notebook ์ฌ์ฉ ๊ฐ๋ฅ
- argument : ์ธ์ ์ค์
- sparkOpts : ์คํ์ ์ฌ์ฉํ ์์ฑ (key, value) ์ ๋ ฅ
- master : spark master ์ ๋ ฅ ( ex. yarn )
- mode : mode ์ ๋ ฅ ( ex. client )
- forceOK : ์คํจ ์ ๊ฐ์ OK ์ฒ๋ฆฌ ์ฌ๋ถ
Example
์ ๋ ฅ๋ฐ์ ์ซ์์ ํ๊ท ์ ๊ตฌํด output.txtํ์ผ์ ์์ฑํ๋ ์์ ์ด๋ค.
- property ํจ๋์ 3.source ์ต์ ์ ์๋์ ๊ฐ์ด ์ ๋ ฅํ๋ค.
- ์ํฌํ๋ก์ฐ ์ ์ฅ/์คํ์ ์๋์ ๊ฐ์ด output.txtํ์ผ์ด ์์ฑ๋๋ค.
Troubleshooting
- pyspark node ์คํ์ [์คํํ ํด๋ฌ์คํฐ์ ์ฃผํผํฐ ๋ ธํธ๋ถ์ด ์์ต๋๋ค] ๋ฉ์์ง
- pyspark node๋ฅผ ์คํํ๋ ํด๋ฌ์คํฐ์ jupyter-notebook ์ปจํ ์ด๋๊ฐ ๊ตฌ์ฑ๋์ด ์๋์ง ํ์ธ
- ์ํฌํ๋ก์ฐ [์ธ์คํด์ค ์์ธ] > [ํ๋ฆ] ํญ ํ๋จ์ STD ๋ก๊ทธ์ ์๋์ ๊ฐ์ด ์๋ฌ๋ฉ์์ง ๊ธฐ๋ก๋จ
- java.io.IOException: Cannot run program "/usr/local/bin/python3.6": error=2, No such file or directory
- run_spark2.sh PYSPARK_PYTHON ์คํ๊ฒฝ๋ก ๋ณ๊ฒฝ