cluster

Definition

[๋ฐ์ดํ„ฐ๋ถˆ๋Ÿฌ์˜ค๊ธฐ]์—์„œ ๋ถˆ๋Ÿฌ์˜จ ๋ฐ์ดํ„ฐ๋ฅผ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋‚˜๋ˆ„๊ณ , ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒ๋œ ํŠน์ • ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋งํ•  ๋•Œ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
์ขŒ์ธก [๋ฐ์ดํ„ฐ์ƒ˜ํ”Œ๋ง]๋…ธ๋“œ ์ค‘ [cluster]๋…ธ๋“œ๋ฅผ drag & drop ํ•œ ํ›„ Property ํ•ญ๋ชฉ์„ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค.

Set

[setting], [parameter] ์„ค์ •์€ [์›Œํฌํ”Œ๋กœ์šฐ] > [์ƒ์„ฑ] > [๊ธฐ๋ณธ๊ตฌ์„ฑ]์„ ์ฐธ๊ณ ํ•ฉ๋‹ˆ๋‹ค.

Property

[Node Description] ์ž‘์„ฑ ์ค‘์ธ ๋…ธ๋“œ๋ช… ์ž…๋ ฅ
datasampling011

  1. fraction : ๋ฆฌํ„ดํ•  ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹ ๊ฐ„์˜ ํฌ๊ธฐ ๋น„์œจ์„ ์˜๋ฏธํ•˜๋ฉฐ, 0~1์‚ฌ์ด์˜ ๊ฐ’ ์ž…๋ ฅ
  2. col : ์ ์šฉํ•  ๊ธฐ์ค€ ์ปฌ๋Ÿผ ์„ ํƒ
  3. includeJob : ๋ฐฐ์น˜/์Šค์ผ€์ค„๋ง ์ž‘์—… ์ˆ˜ํ–‰ ์‹œ ์ƒ˜ํ”Œ๋ง ํฌํ•จ์—ฌ๋ถ€

Example

random ์ƒ˜ํ”Œ๋ง์—์„œ ์‚ฌ์šฉํ•œ HR_Retention.csv(14,999 records)ํŒŒ์ผ์—์„œ cluster ์ƒ˜ํ”Œ๋ง์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์ค€์ปฌ๋Ÿผ(col)์„ sales๋กœ, fraction์„ 0.1๋กœ ์„ค์ •ํ•  ๊ฒฝ์šฐ sales ์ปฌ๋Ÿผ์— ํฌํ•จ๋œ 10๊ฐœ category ์ค‘ 10%๋งŒ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋งŒ๋“ค๊ณ  ํ•ด๋‹น ํด๋Ÿฌ์Šคํ„ฐ์˜ ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค.

  1. [HDFS๋ถˆ๋Ÿฌ์˜ค๊ธฐ], [cluster] ๋…ธ๋“œ๋ฅผ Designer์— Drag & Dropํ•˜์—ฌ ์›Œํฌํ”Œ๋กœ์šฐ ์ƒ์„ฑ
    datasampling012
  2. [cluster]๋…ธ๋“œ์˜ fraction ๊ฐ’์„ 0.1๋กœ ์„ ํƒํ•˜๊ณ , col๊ฐ’์„ sales๋กœ ์„ ํƒ
  3. sales cagegory(10๊ฐœ) ์ค‘ ๋žœ๋คํ•˜๊ฒŒ 1๊ฐœ๋ฅผ ์„ ํƒํ•œ ํ›„ ํฌํ•จ๋œ ์ „์ฒด๋ฐ์ดํ„ฐ๋ฅผ ์ƒ˜ํ”Œ๋ง datasampling013