bucketizer

Definition

연속형 피처의 컬럼을 Bucket으로 구분하는 노드입니다. 좌측 [피처엔지니어링]에서 [bucketizer]노드를 Designer화면에 drag & drop 한 후 우측 Components 패널에서 항목별 필요정보를 입력합니다. Components 패널의 탭별 항목에서 [더보기+] 버튼을 누르면 입력가능한 전체 항목을 볼 수 있습니다.

Set

[setting], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.

Property

우측 Components 패널에서 Property탭을 선택합니다.

bucketizer001

[Node Description] 작성 중인 노드명 입력

  1. columns : 변경할 컬럼을 선택하고 새로운 컬럼 명을 입력
    • target Column : 대상 컬럼 선택(숫자형 타입 컬럼만 지원)
    • new Column : 결과 컬럼명 입력
    • splits : Bucket의 범위 설정 ex) 0, 0.5, 1.0
    • handleInvalid : 비정상 데이터 처리방식
      • error
      • skip
      • keep

Example

  1. [ICOS불러오기], [bucketizer] 노드를 Designer에 Drag & Drop하여 워크플로우 생성

  2. bucketizer를 적용할 대상 컬럼(target Column)을 'price'로 선택, 'new Column'명을 'bucket_price'으로 입력 후 splits를 '0,100000,200000,300000,400000,500000,600000,700000'으로 입력(price가 0~70만 사이 숫자 이므로), handleInvalid를 'Skip'로 설정 후 실행 결과는 다음과 같음 -> 새 컬럼 bucket_price가 범위에 따라 1.0 ~ 7.0으로 추가