mlTrain

Definition

๊ธฐ ์ €์žฅ๋œ ํŒŒ์ดํ”„๋ผ์ธ ๋˜๋Š” ์‹ ๊ทœ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋“ฑ๋กํ•˜์—ฌ ml ํ•™์Šต์„ ์‹คํ–‰ํ•˜๋Š” ๋…ธ๋“œ์ž…๋‹ˆ๋‹ค.
์ขŒ์ธก [Flow๊ตฌ์„ฑ]๋…ธ๋“œ ์ค‘ [mlTrain]๋…ธ๋“œ๋ฅผ drag & drop ํ•œ ํ›„ Property ํ•ญ๋ชฉ์„ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค. Property ํŒจ๋„์˜ [๋”๋ณด๊ธฐ+] ๋ฒ„ํŠผ์„ ๋ˆ„๋ฅด๋ฉด ์ž…๋ ฅ๊ฐ€๋Šฅํ•œ ์ „์ฒด Property ํ•ญ๋ชฉ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Set

[setting], [scheduler], [parameter] ์„ค์ •์€ [์›Œํฌํ”Œ๋กœ์šฐ] > [์ƒ์„ฑ] > [๊ธฐ๋ณธ๊ตฌ์„ฑ]์„ ์ฐธ๊ณ ํ•ฉ๋‹ˆ๋‹ค.

property

[Node Description] ์ž‘์„ฑ ์ค‘์ธ ๋…ธ๋“œ๋ช… ์ž…๋ ฅ

mltrain01

  1. modelName : ๋ชจ๋ธ๋ช… ์ž…๋ ฅ
  2. modelDesc : ๋ชจ๋ธ ์„ค๋ช… ์ž…๋ ฅ
  3. pipelineId : ๊ธฐ์กด์˜ ํŒŒ์ดํ”„๋ผ์ธ ๋ชฉ๋ก ์ค‘ ์‚ฌ์šฉํ•  ํŒŒ์ดํ”„๋ผ์ธ์„ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ์‹ ๊ทœ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋“ฑ๋กํ•˜์—ฌ ์‚ฌ์šฉ
  4. datasetPath : ml train์„ ์ˆ˜ํ–‰ํ•  ๋ฐ์ดํ„ฐ์…‹ ๊ฒฝ๋กœ (HDFS, S3 File browser์„ ์ œ๊ณต-ํŒ์—…์—์„œ ํ•ด๋‹น ๊ฒฝ๋กœ๋ฅผ ์„ ํƒ)
  5. format : ๋ฐ์ดํ„ฐ์…‹ ํฌ๋งท ์„ ํƒ (parquet, csv, orc ์ค‘ ์„ ํƒ)
  6. datasetPathcredential : datasetPath๊ฐ€ s3์ธ ๊ฒฝ์šฐ credential ์ •๋ณด (datasetPath ์„ค์ • ์‹œ ์ž๋™์…‹ํŒ…๋จ)
  7. modelPath : ํ•™์Šต ์„ฑ๊ณต ์‹œ ๋ชจ๋ธ ์ €์žฅ ๊ฒฝ๋กœ (HDFS, S3 File browser์„ ์ œ๊ณต-ํŒ์—…์—์„œ ํ•ด๋‹น ๊ฒฝ๋กœ๋ฅผ ์„ ํƒ)
  8. modelPathcredential : modelPath๊ฐ€ s3์ธ ๊ฒฝ์šฐ credential ์ •๋ณด (modelPath ์„ค์ • ์‹œ ์ž๋™์…‹ํŒ…๋จ)
  9. modelCluster : ํ•™์Šต์‹œ ์‚ฌ์šฉํ•  ํด๋Ÿฌ์Šคํ„ฐ๋ช… (setting์˜ cluster ์„ ํƒ ์‹œ ์ž๋™์…‹ํŒ…๋จ)
  10. spartOpts : spark ์˜ต์…˜ ๋ฆฌ์ŠคํŠธ ์ž…๋ ฅ (key : --executor-memory , value : 20G)

Example

Property

Dataset๊ณผ ๋ชจ๋ธ ์ €์žฅ ์œ„์น˜๋ฅผ HDFS ๋ธŒ๋ผ์šฐ์ €๋กœ ์‚ฌ์šฉํ•˜๋Š” ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค.

  1. ์‹ ๊ทœ์ž‘์„ฑ mltrain02-1
  2. ๋ถˆ๋Ÿฌ์˜ค๊ธฐ mltrain02-2

์‹คํ–‰ ๊ฒฐ๊ณผ

[๋ธŒ๋ผ์šฐ์ €] > [HDFS] ๋ธŒ๋ผ์šฐ์ €์—์„œ mlTrain ์‹คํ–‰ ๊ฒฐ๊ณผ๋กœ ์ €์žฅ๋œ ๋ชจ๋ธ์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

mltrain03