클러스터 템플릿 관리

AWS 클러스터 템플릿 관리

템플릿 관리

clustertemplate001

  1. 닉네임
    • 템플릿의 닉네임
  2. 설명
    • 템플릿의 설명
  3. 클라우드
    • 템플릿을 사용할 수 있는 클라우드
  4. Master
    • Master 노드의 인스턴스 유형
  5. Core
    • Core 노드의 인스턴스 유형
    • GCP의 경우 해당 Master, Worker만 존재하여 해당 노드 설정이 없음
  6. Task
    • Task 노드의 인스턴스 유형 입니다. GCP의 Worker 노드
  7. 최대 노드 수
    • Master, Core, Task를 모두 합하여 만들 수 있는 최대 노드 수
  8. 생성 일자
    • 템플릿을 생성한 시간
  9. 생성자
    • 템플릿을 생성한 사용자 아이디
  10. Action
    • 수정, 삭제 기능

템플릿 생성/삭제/리플레쉬

clustertemplate002

  1. 검색 필터
    • 클라우드, 닉네임, 생성자로 리스트를 검색할 수 있음
  2. 템플릿 생성
    • 템플릿 생성 팝업을 통해 템플릿을 생성
    • AWS의 템플릿 생성 시 클라우드 명을 AWS로 선택하고 Master, Core, Task의 인스턴스 타입을 입력하는데, 입력 시 자동 완성 되는 타입 중에 선택 (c, d, i, m, p, r로 시작)
    • GCP의 템플릿 생성 시 클라우드 명을 GCP로 선택하고 클러스터 모드를 표준 또는 싱글 노드로 선텍 그리고 Master, Worker의 인스턴스 타입을 입력하는데 마찬가지로 입력 시 자동 완성 되는 타입 중에 선택 (n, e로 시작)
  3. 삭제
    • 체크 박스가 체크된 템플릿을 삭제
  4. 리플레쉬
    • 템플릿 리스트를 갱신
  5. Action
    • 수정 : 템플릿을 수정
    • 삭제 : 템플릿을 삭제

EMR Cluster 생성 가이드

[별첨] EMR Cluster 생성 가이드

InstanceMasterCoreTask
전처리r3.xlarge11
MLr3.2xlarge12

AccuInsight++는 기본적으로 Spark 을 사용하기때문에 메모리 중심의 Instance(r type)를 사용하면 됩니다. 위에 데이터는 1.5G 기준으로 테스트한 내용이고 테이블(File)은 1개를 기준으로 해서 Guide한 내용입니다. ML은 테스트를 Random Forest를 가지고 테스트 했고 Hyperparameter 값에 따라 성능이 틀리기 때문에 상황에 맞게 Instance를 Scale Out해서 사용하시면 됩니다.