systematic
Definition
[๋ฐ์ดํฐ๋ถ๋ฌ์ค๊ธฐ]์์ ๋ถ๋ฌ์จ ๋ฐ์ดํฐ๋ฅผ ์ผ์ ํ ๊ฐ๊ฒฉ์ ๋๊ณ ์ํ๋งํ ๋ ์ฌ์ฉํ๋ ๋
ธ๋์
๋๋ค.
๋ชจ์ง๋จ์ ์์์ ์ด๋ค ๊ฒฝํฅ์ด๋ ์ฃผ๊ธฐ์ฑ์ด ์๊ณ ๋๋ค ํ๊ฒ ๋ฐฐ์ด๋ ๊ฒฝ์ฐ random ์ํ๋ง๋ณด๋ค ๋ ์ข์ ์ ๋ฐ๋๋ฅผ ์ป์ ์ ์์ต๋๋ค.
์ข์ธก [๋ฐ์ดํฐ์ํ๋ง]๋
ธ๋ ์ค [systematic]๋
ธ๋๋ฅผ drag & drop ํ ํ Property ํญ๋ชฉ์ ๋ณผ ์ ์์ต๋๋ค.
[Note] Systematic Sampling
์ฒซ ๋ฒ์งธ ์์๋ ๋ฌด์์๋ก ์ ์ ํ ํ ๋ชฉ๋ก์ ๋งค๋ฒ k๋ฒ์งธ ์์๋ฅผ ํ๋ณธ์ผ๋ก ์ ์ ํ๋ ํ์ง๋ฐฉ๋ฒ์ด๋ค. ๋ชจ์ง๋จ์ ํฌ๊ธฐ๋ฅผ ์ํ๋ ํ๋ณธ์ ํฌ๊ธฐ๋ก ๋๋์ด k๋ฅผ ๊ณ์ฐํ๋ค. ์ฌ๊ธฐ์ k๋ ํ์ง๊ฐ๊ฒฉ์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค.
์ถ์ฒ : ์ํค๋ฐฑ๊ณผ ๊ณํต์ถ์ถ๋ฒ (2018๋ 4์ 21์ผ(ํ ) 15:41)
Set
[setting], [parameter] ์ค์ ์ [์ํฌํ๋ก์ฐ] > [์์ฑ] > [๊ธฐ๋ณธ๊ตฌ์ฑ]์ ์ฐธ๊ณ ํฉ๋๋ค.
Property
[Node Description] ์์ฑ ์ค์ธ ๋
ธ๋๋ช
์
๋ ฅ
- count : ์ํ๋งํ ๋ฐ์ดํฐ ๊ฐ์
- includeJob : ๋ฐฐ์น/์ค์ผ์ค๋ง ์์ ์ํ ์ ์ํ๋ง ํฌํจ์ฌ๋ถ
Example
random ์ํ๋ง์์ ์ฌ์ฉํ HR_Retention.csv(14,999 records)ํ์ผ์์ systematic ์ํ๋ง์์ ์ ์ํํฉ๋๋ค. 1๋ถํฐ 14,999๊น์ง ์ํ๋ง ๋จ์๊ฐ ์๋ ๋ชจ์ง๋จ์์ 20๊ฐ๋ฅผ ๋ฝ์ ๋, k(ํ์ง๊ฐ๊ฒฉ)=14,999/20=749.xx์ด๋ฏ๋ก ์ฒ์ 1๋ถํฐ 749๋ฒ ์ฌ์ด์์ ์์๋ก ํ๋๋ฅผ ๋ฝ๊ณ ๊ทธ ๋ค์๋ถํฐ๋ 749์ฉ ๋ํด์ ๋ฝ์ต๋๋ค. ์๋ ์์์ ๊ฐ์ด 123๋ฒ ๊ฐ์ด ์ฒ์ ์ ํ๋์๋ค๋ฉด ๋ค์์๋ 872๋ฒ, 1621๋ฒ ๋ฑ์ ์ํ๋งํฉ๋๋ค.
- [HDFS๋ถ๋ฌ์ค๊ธฐ], [systematic]] ๋
ธ๋๋ฅผ Designer์ Drag & Dropํ์ฌ ์ํฌํ๋ก์ฐ ์์ฑ
- [systematic]๋ ธ๋์ count ๊ฐ์ 20์ผ๋ก ์ค์ (์ ์ฒด ๋ฐ์ดํฐ ์ค 20๊ฐ๋ง ์ํ๋ง)
- [systematic]๋ ธ๋์ snapshot์ ํด๋ฆญํ๋ฉด ์๋์ ๊ฐ์ด ์ํ๋ง๋จ์ ํ์ธ๊ฐ๋ฅ