distcp

Definition

HDFS에 저장된 파일을 다른 HDFS로 복사하는 노드입니다.
좌측 [Flow구성]노드 중 [distcp]노드를 drag & drop 한 후 Property 항목을 입력합니다. Property 패널의 [더보기+] 버튼을 누르면 입력가능한 전체 Property 항목을 볼 수 있습니다.

Set

[setting], [scheduler], [parameter] 설정은 [워크플로우] > [생성] > [기본구성]을 참고합니다.

property

[Node Description] 작성 중인 노드명 입력

distcp01

  1. retry
    • max : 재수행 횟 수
    • period : 재수행 간격
  2. argument : 인수 설정
  3. forceOK : 실패 시 강제 OK 처리 여부

Example

kbtest 클러스터의 HR_Retention.csv파일을 test1234 클러스터에 [distcp] 노드를 사용하여 복사합니다.

  1. 첫 번째 arg에 HR_Retention.csv파일이 저장된 path를, 두 번째 arg에 target path를 입력

    - source : hdfs://kbtest-accu-hdfs-nn.suka:9000/tmp/test
    - target : hdfs://test1234-accu-hdfs-nn.suka:9000/tmp

    distcp02

  2. distcp 워크플로우 실행 후 test1234 클러스터에 ./test/HR_retention.csv파일 생성
    distcp03