topN
Definition
상위 몇 %의 데이터를 추출합니다.
좌측 [데이터처리(기본)]노드 중 [topN]노드를 drag & drop 한 후 Property 항목을 입력합니다.
Set
[setting], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.
Property
[Node Description] 작성 중인 노드명 입력
- 적용할 column 선택 : 기준 컬럼 선택
- 상위 % : 상위 몇 프로 데이터를 추출할지 선택(1-100)
- 정렬 기준 : asc(오름차순), desc(내림차순)
Example
price컬럼에서 중 상위 20%인 데이터만 불러오는 워크플로우를 생성합니다.
- [HDFS불러오기], [topN] 노드를 Designer에 Drag & Drop하여 워크플로우 생성
- [topN] 노드를 아래와 같이 설정하고 snapshot 클릭