topN

Definition

상위 몇 %의 데이터를 추출합니다.
좌측 [데이터처리(기본)]노드 중 [topN]노드를 drag & drop 한 후 Property 항목을 입력합니다.

Set

[setting], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.

Property

[Node Description] 작성 중인 노드명 입력
prebasic063

  1. 적용할 column 선택 : 기준 컬럼 선택
  2. 상위 % : 상위 몇 프로 데이터를 추출할지 선택(1-100)
  3. 정렬 기준 : asc(오름차순), desc(내림차순)

Example

price컬럼에서 중 상위 20%인 데이터만 불러오는 워크플로우를 생성합니다.

  1. [HDFS불러오기], [topN] 노드를 Designer에 Drag & Drop하여 워크플로우 생성 prebasic064
  2. [topN] 노드를 아래와 같이 설정하고 snapshot 클릭
    prebasic065