dropSaturateCol
Definition
Min/Max값이 정해진 비율만큼 치우쳐져 있을때 해당 컬럼을 모두 제거합니다. 예를 들어 최소값이 2인 컬럼에서 2의 분포가 ratio에서 정한 비율을 넘어가면 해당 컬럼은 제거 대상이 됩니다. 좌측 [데이터처리(고급)]노드 중 [dropSaturateCol]노드를 drag & drop 한 후 Property 항목을 입력합니다.
Set
[setting], [parameter] 설정은 [워크플로우 생성] > [설정]을 참고합니다.
property
[Node Description] 작성 중인 노드명 입력
- ratio - Min/Max값의 분포 비율
- col - 지정된 컬럼을 Grouping하여 해당 그룹이 조건에 해당하면 컬럼을 모두 제거
Example
최소값/최대값에 해당하는 값이 30% 이상인 컬럼을 제거하는 워크플로우를 구성합니다.
- [HDFS불러오기], [dropSaturateCol] 노드를 Designer에 Drag & Drop하여 워크플로우 생성
- [dropSaturateCol]노드에 아래와 같이 입력 후 snapshot 클릭