dropSaturateCol

Definition

Min/Max값이 정해진 비율만큼 치우쳐져 있을때 해당 컬럼을 모두 제거합니다. 예를 들어 최소값이 2인 컬럼에서 2의 분포가 ratio에서 정한 비율을 넘어가면 해당 컬럼은 제거 대상이 됩니다. 좌측 [데이터처리(고급)]노드 중 [dropSaturateCol]노드를 drag & drop 한 후 Property 항목을 입력합니다.

Set

[setting], [parameter] 설정은 [워크플로우 생성] > [설정]을 참고합니다.

property

[Node Description] 작성 중인 노드명 입력
dropSaturateCol

  1. ratio - Min/Max값의 분포 비율
  2. col - 지정된 컬럼을 Grouping하여 해당 그룹이 조건에 해당하면 컬럼을 모두 제거

Example

최소값/최대값에 해당하는 값이 30% 이상인 컬럼을 제거하는 워크플로우를 구성합니다.

  1. [HDFS불러오기], [dropSaturateCol] 노드를 Designer에 Drag & Drop하여 워크플로우 생성
    dropSaturateCol
  2. [dropSaturateCol]노드에 아래와 같이 입력 후 snapshot 클릭
    dropSaturateCol