tamr 불러오기

Definition

tamr에 저장된 데이터를 Pipeline으로 불러오기 위해 사용합니다.
좌측 [데이터불러오기]노드 중 [tamr]노드를 drag & drop 한 후 Property 항목을 입력합니다. Property 패널의 [더보기+] 버튼을 누르면 입력가능한 전체 Property 항목을 볼 수 있습니다.
impdata024

Set

[setting], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.

Property

[Node Description] 작성 중인 노드명 입력
impdata025

  1. datasetName : S3 경로 설정
    • [S3 File Browser] > [Bucket 관리]에서 버킷 정보 등록
    • [브라우저] > [S3] 메뉴에서 버킷 정보 등록
  2. credential
  3. format : 불러올 파일 형식 지정(json, parquet, csv, xml 중 택1)
  4. delimiter : 구분자 입력
  5. option : 사용 가능한 옵션설정(헤더유무, nanValue, nullValue) 설정
    • key: header, value : true/False = 헤더 설정 여부(True : 헤더설정, False : 헤더미설정)
    • key: nullValue, value : 입력값(ex:NULL) = 데이터에 포함된 입력값(NULL)을 Null문자열 처리
    • key: nanValue, value : 입력값(ex:NaN) = 데이터에 포함된 입력값(NaN)을 NaN문자열 처리
  6. schema : column 및 dataType 정의(우측 [자동파싱], [추가]버튼 활용. 파싱을 완료해야 이후 연결할 노드에서 사용가능)
    • [자동파싱] : 불러올 데이터 유형(숫자형, 문자형)에 맞게 pipeline에서 자동 파싱. 사용자가 dataType 변경 가능
    • [추가] : 사용자가 데이터 column, dataType을 직접 파싱. schema 상세활용법은 [HDFS불러오기] 참고