systematic

Definition

[๋ฐ์ดํ„ฐ๋ถˆ๋Ÿฌ์˜ค๊ธฐ]์—์„œ ๋ถˆ๋Ÿฌ์˜จ ๋ฐ์ดํ„ฐ๋ฅผ ์ผ์ •ํ•œ ๊ฐ„๊ฒฉ์„ ๋‘๊ณ  ์ƒ˜ํ”Œ๋งํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๋…ธ๋“œ์ž…๋‹ˆ๋‹ค.
๋ชจ์ง‘๋‹จ์˜ ์ˆœ์„œ์— ์–ด๋–ค ๊ฒฝํ–ฅ์ด๋‚˜ ์ฃผ๊ธฐ์„ฑ์ด ์—†๊ณ  ๋žœ๋ค ํ•˜๊ฒŒ ๋ฐฐ์—ด๋œ ๊ฒฝ์šฐ random ์ƒ˜ํ”Œ๋ง๋ณด๋‹ค ๋” ์ข‹์€ ์ •๋ฐ€๋„๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ขŒ์ธก [๋ฐ์ดํ„ฐ์ƒ˜ํ”Œ๋ง]๋…ธ๋“œ ์ค‘ [systematic]๋…ธ๋“œ๋ฅผ drag & drop ํ•œ ํ›„ Property ํ•ญ๋ชฉ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

[Note] Systematic Sampling
์ฒซ ๋ฒˆ์งธ ์š”์†Œ๋Š” ๋ฌด์ž‘์œ„๋กœ ์„ ์ •ํ•œ ํ›„ ๋ชฉ๋ก์˜ ๋งค๋ฒˆ k๋ฒˆ์งธ ์š”์†Œ๋ฅผ ํ‘œ๋ณธ์œผ๋กœ ์„ ์ •ํ•˜๋Š” ํ‘œ์ง‘๋ฐฉ๋ฒ•์ด๋‹ค. ๋ชจ์ง‘๋‹จ์˜ ํฌ๊ธฐ๋ฅผ ์›ํ•˜๋Š” ํ‘œ๋ณธ์˜ ํฌ๊ธฐ๋กœ ๋‚˜๋ˆ„์–ด k๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ k๋Š” ํ‘œ์ง‘๊ฐ„๊ฒฉ์ด๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค.
์ถœ์ฒ˜ : ์œ„ํ‚ค๋ฐฑ๊ณผ ๊ณ„ํ†ต์ถ”์ถœ๋ฒ• (2018๋…„ 4์›” 21์ผ(ํ† ) 15:41)

Set

[setting], [parameter] ์„ค์ •์€ [์›Œํฌํ”Œ๋กœ์šฐ] > [์ƒ์„ฑ] > [๊ธฐ๋ณธ๊ตฌ์„ฑ]์„ ์ฐธ๊ณ ํ•ฉ๋‹ˆ๋‹ค.

Property

[Node Description] ์ž‘์„ฑ ์ค‘์ธ ๋…ธ๋“œ๋ช… ์ž…๋ ฅ
datasampling004

  1. count : ์ƒ˜ํ”Œ๋งํ•  ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜
  2. includeJob : ๋ฐฐ์น˜/์Šค์ผ€์ค„๋ง ์ž‘์—… ์ˆ˜ํ–‰ ์‹œ ์ƒ˜ํ”Œ๋ง ํฌํ•จ์—ฌ๋ถ€

Example

random ์ƒ˜ํ”Œ๋ง์—์„œ ์‚ฌ์šฉํ•œ HR_Retention.csv(14,999 records)ํŒŒ์ผ์—์„œ systematic ์ƒ˜ํ”Œ๋ง์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. 1๋ถ€ํ„ฐ 14,999๊นŒ์ง€ ์ƒ˜ํ”Œ๋ง ๋‹จ์œ„๊ฐ€ ์žˆ๋Š” ๋ชจ์ง‘๋‹จ์—์„œ 20๊ฐœ๋ฅผ ๋ฝ‘์„ ๋•Œ, k(ํ‘œ์ง‘๊ฐ„๊ฒฉ)=14,999/20=749.xx์ด๋ฏ€๋กœ ์ฒ˜์Œ 1๋ถ€ํ„ฐ 749๋ฒˆ ์‚ฌ์ด์—์„œ ์ž„์˜๋กœ ํ•˜๋‚˜๋ฅผ ๋ฝ‘๊ณ  ๊ทธ ๋‹ค์Œ๋ถ€ํ„ฐ๋Š” 749์”ฉ ๋”ํ•ด์„œ ๋ฝ‘์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ์˜ˆ์‹œ์™€ ๊ฐ™์ด 123๋ฒˆ ๊ฐ’์ด ์ฒ˜์Œ ์„ ํƒ๋˜์—ˆ๋‹ค๋ฉด ๋‹ค์Œ์—๋Š” 872๋ฒˆ, 1621๋ฒˆ ๋“ฑ์„ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค.

  1. [HDFS๋ถˆ๋Ÿฌ์˜ค๊ธฐ], [systematic]] ๋…ธ๋“œ๋ฅผ Designer์— Drag & Dropํ•˜์—ฌ ์›Œํฌํ”Œ๋กœ์šฐ ์ƒ์„ฑ
    datasampling005
  2. [systematic]๋…ธ๋“œ์˜ count ๊ฐ’์„ 20์œผ๋กœ ์„ค์ •(์ „์ฒด ๋ฐ์ดํ„ฐ ์ค‘ 20๊ฐœ๋งŒ ์ƒ˜ํ”Œ๋ง)
  3. [systematic]๋…ธ๋“œ์˜ snapshot์„ ํด๋ฆญํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ์ƒ˜ํ”Œ๋ง๋จ์„ ํ™•์ธ๊ฐ€๋Šฅ datasampling006