cluster
Definition
[๋ฐ์ดํฐ๋ถ๋ฌ์ค๊ธฐ]์์ ๋ถ๋ฌ์จ ๋ฐ์ดํฐ๋ฅผ ํด๋ฌ์คํฐ๋ก ๋๋๊ณ , ๋๋คํ๊ฒ ์ ํ๋ ํน์ ํด๋ฌ์คํฐ์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ํ๋งํ ๋ ์ฌ์ฉํฉ๋๋ค.
์ข์ธก [๋ฐ์ดํฐ์ํ๋ง]๋
ธ๋ ์ค [cluster]๋
ธ๋๋ฅผ drag & drop ํ ํ Property ํญ๋ชฉ์ ์
๋ ฅํฉ๋๋ค.
Set
[setting], [parameter] ์ค์ ์ [์ํฌํ๋ก์ฐ] > [์์ฑ] > [๊ธฐ๋ณธ๊ตฌ์ฑ]์ ์ฐธ๊ณ ํฉ๋๋ค.
Property
[Node Description] ์์ฑ ์ค์ธ ๋
ธ๋๋ช
์
๋ ฅ
- fraction : ๋ฆฌํดํ ๋ฐ์ดํฐ์ ๊ณผ ์ ์ฒด ๋ฐ์ดํฐ์ ๊ฐ์ ํฌ๊ธฐ ๋น์จ์ ์๋ฏธํ๋ฉฐ, 0~1์ฌ์ด์ ๊ฐ ์ ๋ ฅ
- col : ์ ์ฉํ ๊ธฐ์ค ์ปฌ๋ผ ์ ํ
- includeJob : ๋ฐฐ์น/์ค์ผ์ค๋ง ์์ ์ํ ์ ์ํ๋ง ํฌํจ์ฌ๋ถ
Example
random ์ํ๋ง์์ ์ฌ์ฉํ HR_Retention.csv(14,999 records)ํ์ผ์์ cluster ์ํ๋ง์์ ์ ์ํํฉ๋๋ค. ๊ธฐ์ค์ปฌ๋ผ(col)์ sales๋ก, fraction์ 0.1๋ก ์ค์ ํ ๊ฒฝ์ฐ sales ์ปฌ๋ผ์ ํฌํจ๋ 10๊ฐ category ์ค 10%๋ง ํด๋ฌ์คํฐ๋ฅผ ๋ง๋ค๊ณ ํด๋น ํด๋ฌ์คํฐ์ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ํ๋งํฉ๋๋ค.
- [HDFS๋ถ๋ฌ์ค๊ธฐ], [cluster] ๋
ธ๋๋ฅผ Designer์ Drag & Dropํ์ฌ ์ํฌํ๋ก์ฐ ์์ฑ
- [cluster]๋ ธ๋์ fraction ๊ฐ์ 0.1๋ก ์ ํํ๊ณ , col๊ฐ์ sales๋ก ์ ํ
- sales cagegory(10๊ฐ) ์ค ๋๋คํ๊ฒ 1๊ฐ๋ฅผ ์ ํํ ํ ํฌํจ๋ ์ ์ฒด๋ฐ์ดํฐ๋ฅผ ์ํ๋ง