stratified
Definition
[๋ฐ์ดํฐ๋ถ๋ฌ์ค๊ธฐ]์์ ๋ถ๋ฌ์จ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ฃน์ผ๋ก ๋๋๊ณ ๊ฐ ๊ทธ๋ฃน์์์ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ ๋ ์ฌ์ฉํฉ๋๋ค. ๊ฐ ๊ทธ๋ฃน์์ ์ ํด์ง ๊ฐ์๋ฅผ ์ถ์ถํ ์๋ ์๊ณ , ๊ฒฝ์ฐ์ ๋ฐ๋ผ์๋ ๋น์จ์ ๋ง์ถฐ์ ์ถ์ถํ๋ ๊ฒ ๋ ํจ๊ณผ์ ์ผ ์ ์์ต๋๋ค.
์ข์ธก [๋ฐ์ดํฐ์ํ๋ง]์์ [stratified]๋
ธ๋๋ฅผ drag & drop ํ ํ Property ํญ๋ชฉ์ ์
๋ ฅํฉ๋๋ค.
Property ํจ๋์ [๋๋ณด๊ธฐ+] ๋ฒํผ์ ๋๋ฅด๋ฉด ์
๋ ฅ๊ฐ๋ฅํ ์ ์ฒด Property ํญ๋ชฉ์ ๋ณผ ์ ์์ต๋๋ค.
Set
[setting], [parameter] ์ค์ ์ [์ํฌํ๋ก์ฐ] > [์์ฑ] > [๊ธฐ๋ณธ๊ตฌ์ฑ]์ ์ฐธ๊ณ ํฉ๋๋ค.
Property
[Node Description] ์์ฑ ์ค์ธ ๋
ธ๋๋ช
์
๋ ฅ
- method : ๊ฐ ์ธต๋ณ๋ก ์ผ์ ํ ๊ฐ์์ rocord๋ฅผ ์ ํํ๊ฑฐ๋, ์ผ์ ํ ๋น์จ(0.0~1.0 ์ฌ์ด) ์
๋ ฅ
- record : selectType์ record๋ก ์ ํ์ num ํญ๋ชฉ์ ์ ๋ ฅํ ์์น๋งํผ ๊ฐ์ธต ๋ณ๋ก ์ ํ
- ratio : selectType์ ratio๋ก ์ ํ์ fractionํญ๋ชฉ์ ์ ๋ ฅํ ๋น์จ๋งํผ ๊ฐ ์ธต๋ณ๋ก ์ ํ
- col : ์ ์ฉํ ๊ธฐ์ค ์ปฌ๋ผ ์ ํ(์ปฌ๋ผ์ Uniqueํ ๊ฐ์ผ๋ก ๊ณ์ธต ๋ถ๋ฅ)
- withReplacement : ๊ฐ ์ธต๋ณ ๋๋ค์ํ๋ง์ ๋ณต์/๋น๋ณต์ ์ถ์ถ ์ฌ๋ถ ์ ํ
- true : ๋ณต์์ถ์ถ(ํ ๋ฒ ์ถ์ถํ ๋ฐ์ดํฐ๋ฅผ ๋ณต์ํ์ฌ ๋ค์ ํ ์ ์์)
- False : ๋น๋ณต์์ถ์ถ(์ถ์ถํ ๋ฐ์ดํฐ๋ ์ ์ธํ๊ณ sampling ์ํ)
- includeJob : ๋ฐฐ์น/์ค์ผ์ค๋ง ์์ ์ํ ์ ์ํ๋ง ํฌํจ์ฌ๋ถ
Example
random ์ํ๋ง์์ ์ฌ์ฉํ HR_Retention.csv(14,999 records)ํ์ผ์์ stratified ์ํ๋ง์์ ์ ์ํํฉ๋๋ค. HR_Retention ํ ์ด๋ธ์ ๊ธฐ์ค์ปฌ๋ผ์ sales๋ก ์ ํํ ๊ฒฝ์ฐ sales ์ปฌ๋ผ์ category๊ฐ 10๊ฐ์ด๋ฏ๋ก, record๋ฅผ 10์ผ๋ก ์ ๋ ฅํ ๊ฒฝ์ฐ 100๊ฐ(category๋ณ 10๊ฐ์ฉ)์ ๋ฐ์ดํฐ๊ฐ sampling๋ฉ๋๋ค. ratio๋ฅผ 0.1๋ก ์ ํ์ catetory๋ณ๋ก 10%์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํฉ๋๋ค.
- [HDFS๋ถ๋ฌ์ค๊ธฐ], [stratified] ๋
ธ๋๋ฅผ Designer์ Drag & Dropํ์ฌ ์ํฌํ๋ก์ฐ ์์ฑ
- [stratified]๋ ธ๋์ method ๊ฐ์ record๋ก ์ ํ(num = 10)ํ๊ณ col์ sales๋ก ์ ํ(100๊ฐ์ ๋ฐ์ดํฐ ์์ฑ)
- [stratified]๋ ธ๋์ method ๊ฐ์ ratio๋ก ์ ํ(ratio = 0.15)ํ๊ณ col์ sales๋ก ์ ํ(category๋ณ 15%์ฉ ์ด 2,255๊ฐ์ ๋ฐ์ดํฐ ์์ฑ)