dropna
dropna
결측값이 있는 데이터를 삭제한다. 좌측 [데이터처리(기본)]노드 중 [dropna]노드를 drag & drop 한다. Property 패널의 [더보기+] 버튼을 누르면 입력가능한 전체 Property 항목을 볼 수 있다.
- drop 처리방법 (method) : any, all, thresh 중 택일
- any: null이 하나라도 포함되어있으면 그 행을 삭제
- all: 모든 컬럼이 null인 경우 그 행을 삭제
- thresh: subset에 정의한 컬럼에서 value에 정의한 결측값 개수를 초과한(less than(<)) 결측값이 있는 경우 결측값 행을 삭제
- subset : 결측값 확인을 위한 컬럼을 선택
HDFS에 적재된 데이터와 dropna(any옵션) 실행결과는 다음과 같다.
- HDFS에 적재된 데이터
- dropna(any옵션) 실행 결과
dropna thresh 옵션을 선택하면 value를 입력하도록 화면이 변경된다.
- dropna(thresh옵션) 실행 결과