dropna

dropna

결측값이 있는 데이터를 삭제한다. 좌측 [데이터처리(기본)]노드 중 [dropna]노드를 drag & drop 한다. Property 패널의 [더보기+] 버튼을 누르면 입력가능한 전체 Property 항목을 볼 수 있다.

prebasic017

  1. drop 처리방법 (method) : any, all, thresh 중 택일
    • any: null이 하나라도 포함되어있으면 그 행을 삭제
    • all: 모든 컬럼이 null인 경우 그 행을 삭제
    • thresh: subset에 정의한 컬럼에서 value에 정의한 결측값 개수를 초과한(less than(<)) 결측값이 있는 경우 결측값 행을 삭제
  2. subset : 결측값 확인을 위한 컬럼을 선택

HDFS에 적재된 데이터와 dropna(any옵션) 실행결과는 다음과 같다.

  • HDFS에 적재된 데이터

prebasic018

  • dropna(any옵션) 실행 결과

prebasic019

dropna thresh 옵션을 선택하면 value를 입력하도록 화면이 변경된다.

  • dropna(thresh옵션) 실행 결과

prebasic020