dataJoin
Definition
2๊ฐ ์ด์์ ๋
ธ๋๋ก๋ถํฐ ๋ฐ์ดํฐ๋ฅผ Joinํ๋ ๋
ธ๋์
๋๋ค.
์ข์ธก [๋ฐ์ดํฐ์ฒ๋ฆฌ(๊ธฐ๋ณธ)]๋
ธ๋ ์ค [dataJoin]๋
ธ๋๋ฅผ drag & drop ํ ํ Property ํญ๋ชฉ์ ์
๋ ฅํฉ๋๋ค.
Set
[setting], [parameter] ์ค์ ์ [์ํฌํ๋ก์ฐ] > [์์ฑ] > [๊ธฐ๋ณธ๊ตฌ์ฑ]์ ์ฐธ๊ณ ํฉ๋๋ค.
Property
[Node Description] ์์ฑ ์ค์ธ ๋
ธ๋๋ช
์
๋ ฅ
col1 : ์ฒซ ๋ฒ์งธ ๋ ธ๋ ๊ธฐ์ค ์ปฌ๋ผ ์ ํ
col2 : ๋ ๋ฒ์งธ ๋ ธ๋ ๊ธฐ์ค ์ปฌ๋ผ ์ ํ
how : join ์ ํ ์ ํ
join์ ํ ์ค๋ช inner ์กฐ์ธ ์กฐ๊ฑด์ ๋ง๋ ํ๋ง ๊ฒ์ outer ์กฐ์ธ ํค์ ๋์๋๋ row๊ฐ ์๋ ๊ฒฝ์ฐ null๋ก ์ถ์ถ left_outer col1์์ ์ ํํ ์กฐ์ธ ํค์ ๋์๋๋ row๊ฐ ์๋ ๊ฒฝ์ฐ null๋ก ์ถ์ถ right_outer col2์์ ์ ํํ ์กฐ์ธ ํค์ ๋์๋๋ row๊ฐ ์๋ ๊ฒฝ์ฐ null๋ก ์ถ์ถ left_semi col1๊ณผ col2๊ฐ ์๋ก join์ col1,col2์ ๊ฐ์ด ๊ฐ์ ๋ฐ์ดํฐ1์ถ์ถ (exists ํจ์์ ์ ์ฌ) left_anti col1๊ณผ col2๊ฐ ์๋ก join์ col1,col2์ ๊ฐ์ด ์๋ ๋ฐ์ดํฐ1์ถ์ถ (not exists ํจ์์ ์ ์ฌ) cross ๋ ๋ ธ๋์ ์นดํฐ์ ํ๋ก๋ํธ(๊ณฑ์งํฉ)๊ฒฐ๊ณผ๋ฅผ ์ถ์ถ cleanColumns : ์์คํ ์ด๋ธ ๊ตฌ๋ถ์ ์ํ ํ๊ทธ์ ๊ฑฐ ๋ฐ ์ค๋ณต key ์ปฌ๋ผ ์ ๊ฑฐ
Suggestion
๋ฐ์ดํฐ Join์ ์ฌ์ฉํ๊ธฐ ์ํ ์ปฌ๋ผ์ Pipeline์์ ์ ์ํฉ๋๋ค. ์ํฌํ๋ก์ฐ ๊ตฌ์ฑ ํ Property ํญ๋ชฉ์ [Suggestion] ๋ฒํผ์ ๋๋ฌ, ์ปฌ๋ผ๊ฐ ์ ์ฌ๋๋ฅผ ํ์ธํฉ๋๋ค.
- Similarity : ์ํ๋งํ ๋ฐ์ดํฐ์ ์ ์ฌ๋. ์ ์ฉ์ ์ ์ฒด ๋ฐ์ดํฐ ์ ์ฌ๋ ํ์ธ๊ฐ๋ฅ
- ์ ์ฉ : Join๋์ ์ปฌ๋ผ ํ์ธ ํ ์ ์ฉ๋ฒํผ ํด๋ฆญ์ Property ํญ๋ชฉ์ col1, col2์ ์๋์ ๋ ฅ
Example
์ํ์ ๋ณด์ ์ฃผ๋ฌธ์ ๋ณด ๋ฐ์ดํฐ๋ฅผ goods_id ์ปฌ๋ผ์ผ๋ก ์กฐ์ธํฉ๋๋ค. ๋ถ์๊ฐ๊ฐ ์ง์ ์ง์ ํ ์๋ ์๊ณ , [suggestion]๊ธฐ๋ฅ์ ์ฌ์ฉํ ์๋ ์์ต๋๋ค.
- [HDFS๋ถ๋ฌ์ค๊ธฐ], [select], [dataJoin]๋
ธ๋๋ฅผ Designer์ Drag & Dropํ์ฌ ์ํฌํ๋ก์ฐ ์์ฑ
- [dataJoin]๋
ธ๋ col1, col2์์ goods_id ์ ํ. ๋๋ [Suggest] ํด๋ฆญ ํ goods_id ํญ๋ชฉ [์ ์ฉ]
- [dataJoin]๋ ธ๋ how์์ inner ์ ํ ํ snapshot๋ฒํผ ์ ํํ์ฌ ์กฐ์ธ๊ฒฐ๊ณผ ํ์ธ