dropna

Definition

결측값이 있는 데이터 삭제시 사용합니다.
좌측 [데이터처리(기본)]노드 중 [dropna]노드를 drag & drop 한 후 Property 항목을 입력합니다. Property 패널의 [더보기+] 버튼을 누르면 입력가능한 전체 Property 항목을 볼 수 있습니다.

Set

[setting], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.

Property

[Node Description] 작성 중인 노드명 입력
prebasic028

  1. drop 처리방법 (method) : any, all, thresh 중 택일
    • any: null이 하나라도 포함되어있으면 그 행을 삭제
    • all: 모든 컬럼이 null인 경우 그 행을 삭제
    • thresh: subset에 정의한 컬럼에서 value에 정의한 결측값 개수를 초과한(less than(<)) 결측값이 있는 경우 결측값 행을 삭제
  2. subset : 결측값 확인을 위한 컬럼을 선택

Example

상품정보 데이터 중 결측값이 있는 행을 찾아 제거합니다.

  1. [HDFS불러오기], [dropna] 노드를 Designer에 Drag & Drop하여 워크플로우 생성
    prebasic029
  2. [dropna]노드에서 drop 처리방법을 any로 선택시 null이 포함된 record 제거 prebasic030
  3. [dropna]노드에서 drop 처리방법을 thresh, value=1, subset col=group으로 선택시 group컬럼에 null이 한개 이상 있는 record 제거 prebasic031