dropDuplicates

Definition

선택한 컬럼에 중복값이 있으면 제거할 때 사용합니다.
좌측 [데이터처리(기본)]노드 중 [dropDuplicates]노드를 drag & drop 한 후 Property 항목을 입력합니다. Property 패널의 [더보기+] 버튼을 누르면 입력가능한 전체 Property 항목을 볼 수 있습니다.

Set

[setting], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.

Property

[Node Description] 작성 중인 노드명 입력
prebasic025

  1. subset : 중복값 확인을 위한 컬럼 선택. 적용대상 컬럼이 여러 개일 경우 우측 [+]버튼으로 추가
    • col : 중복값 확인 대상 컬럼

Example

상품정보 데이터 중 category, group에 중복 값이 있는 행을 찾아 제거합니다.

  1. [HDFS불러오기], [select], [dropduplicates] 노드를 Designer에 Drag & Drop하여 워크플로우 생성
    prebasic026
  2. [select]노드에서 category, group 컬럼선택
  3. [dropduplicates]노드에서 category, group 컬럼 선택([+]버튼으로 컬럼입력항목 추가) 후 snapshot 선택 prebasic027