mlTrain

Definition

ML Modeler์„œ๋น„์Šค์—์„œ ๊ธฐ ์ €์žฅ๋œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ml ํ•™์Šต์„ ์‹คํ–‰ํ•˜๋Š” ๋…ธ๋“œ์ด๋‹ค. [Flow๊ตฌ์„ฑ]๋…ธ๋“œ ์ค‘ [mlTrain]๋…ธ๋“œ๋ฅผ drag & drop ํ•œ ํ›„ Property ํ•ญ๋ชฉ์„ ์ž…๋ ฅํ•œ๋‹ค. Property ํŒจ๋„์˜ [๋”๋ณด๊ธฐ+] ๋ฒ„ํŠผ์„ ๋ˆ„๋ฅด๋ฉด ์ž…๋ ฅ๊ฐ€๋Šฅํ•œ ์ „์ฒด Property ํ•ญ๋ชฉ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Set

[setting], [scheduler], [parameter] ์„ค์ •์€ [์›Œํฌํ”Œ๋กœ์šฐ ์ƒ์„ฑ] > [์„ค์ •]์„ ์ฐธ๊ณ ํ•œ๋‹ค.

property

[Node Description] ์ž‘์„ฑ ์ค‘์ธ ๋…ธ๋“œ๋ช… ์ž…๋ ฅ

flow014

  1. modelName : ๋ชจ๋ธ๋ช… ์ž…๋ ฅ
  2. modelDesc : ์„ค๋ช… ์ž…๋ ฅ
  3. pipelineId : ๋ธŒ๋ผ์šฐ์ €์—์„œ ๊ธฐ์กด์˜ ํŒŒ์ดํ”„๋ผ์ธ ๋ชฉ๋ก ์ค‘ ์‚ฌ์šฉํ•  ํŒŒ์ดํ”„๋ผ์ธ์„ ์„ ํƒ
  4. datasetPath : ml train์„ ์ˆ˜ํ–‰ํ•  ๋ฐ์ดํ„ฐ์…‹ ๊ฒฝ๋กœ (HDFS, S3 File browser์„ ์ œ๊ณต-ํŒ์—…์—์„œ ํ•ด๋‹น ๊ฒฝ๋กœ๋ฅผ ์„ ํƒ)
  5. format : ๋ฐ์ดํ„ฐ์…‹ ํฌ๋งท ์„ ํƒ (parquet, csv, orc ์ค‘ ์„ ํƒ)
  6. datasetPathcredential : datasetPath๊ฐ€ s3์ธ ๊ฒฝ์šฐ credential ์ •๋ณด (datasetPath ์„ค์ • ์‹œ ์ž๋™์…‹ํŒ…๋จ)
  7. modelPath : ํ•™์Šต ์„ฑ๊ณต ์‹œ ๋ชจ๋ธ ์ €์žฅ ๊ฒฝ๋กœ (HDFS, S3 File browser์„ ์ œ๊ณต-ํŒ์—…์—์„œ ํ•ด๋‹น ๊ฒฝ๋กœ๋ฅผ ์„ ํƒ)
  8. modelPathcredential : modelPath๊ฐ€ s3์ธ ๊ฒฝ์šฐ credential ์ •๋ณด (modelPath ์„ค์ • ์‹œ ์ž๋™์…‹ํŒ…๋จ)
  9. modelCluster : ํ•™์Šต์‹œ ์‚ฌ์šฉํ•  ํด๋Ÿฌ์Šคํ„ฐ๋ช… (setting์˜ cluster ์„ ํƒ ์‹œ ์ž๋™์…‹ํŒ…๋จ)
  10. spartOpts : spark ์˜ต์…˜ ๋ฆฌ์ŠคํŠธ ์ž…๋ ฅ (key : --executor-memory , value : 20G)

Example

Property

HDFS ๋ธŒ๋ผ์šฐ์ €๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค.

flow014

์‹คํ–‰ ๊ฒฐ๊ณผ

๋ธŒ๋ผ์šฐ์ € > HDFS ๋ธŒ๋ผ์šฐ์ € ์—์„œ mlTrain ์‹คํ–‰ ๊ฒฐ๊ณผ๋กœ ์ €์žฅ๋œ ๋ชจ๋ธ์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ๋‹ค.

flow014