Dataset

Dataset

Dataset ์กฐํšŒ

๋“ฑ๋ก๋œ Dataset์„ ์กฐํšŒ ๋ฐ ๊ด€๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

dataset001

  1. ๊ฒ€์ƒ‰ : Dataset ์ด๋ฆ„, ๊ธฐ๊ฐ„์„ ์ด์šฉํ•˜์—ฌ Dataset์„ ๊ฒ€์ƒ‰
  2. ์ถ”๊ฐ€ : Dataset ์‹ ๊ทœ ๋“ฑ๋ก
  3. ์‚ญ์ œ : Dataset ์‚ญ์ œ
  4. Dataset Overview : Dataset Data ์ •๋ณด์™€ ์ปฌ๋Ÿผ์˜ ํ†ต๊ณ„์ •๋ณด ํ™•์ธ
  5. Action icon
    • ๋‹ค์šด๋กœ๋“œ : ํ•ด๋‹น Dataset์„ ๋กœ์ปฌ๋กœ ๋‹ค์šด๋กœ๋“œ
    • ์ˆ˜์ • : ํ•ด๋‹น Dataset ์ˆ˜์ •
    • ์‚ญ์ œ : ํ•ด๋‹น Dataset ์‚ญ์ œ

Dataset Overview

Dataset Name์„ ํด๋ฆญํ•˜์—ฌ ๋“ฑ๋ก๋œ Dataset ์ •๋ณด์™€ ์ปฌ๋Ÿผ์˜ ํ†ต๊ณ„์ •๋ณด๋ฅผ ์กฐํšŒํ•ฉ๋‹ˆ๋‹ค.

dataset002

  1. Data Overview : ๋“ฑ๋ก๋œ Dataset Data ์ •๋ณด๋ฅผ ์กฐํšŒ
  2. ํ†ต๊ณ„์ •๋ณด : ์ปฌ๋Ÿผ์„ ์„ ํƒํ•˜๊ณ  Statistics ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜๋ฉด ํ•ด๋‹น ์ปฌ๋Ÿผ์˜ ํ†ต๊ณ„์ •๋ณด ํ™•์ธ ๊ฐ€๋Šฅ
    • NumericType ๊ฒฝ์šฐ: count, mean, stddev, min, max ํ‘œ์‹œ
    • StringType ๊ฒฝ์šฐ: distinct count ํ‘œ์‹œ

Dataset ๋“ฑ๋ก

Dataset์„ ์‹ ๊ทœ ๋“ฑ๋ก ํ•ฉ๋‹ˆ๋‹ค.

dataset003

  1. ์ €์žฅ๋œ Data์˜ ์œ„์น˜
    • HDFS, ICOS, S3, Local์— ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ, HDFS/ICOS/S3/Local ์ƒ์˜ ๊ฒฝ๋กœ๋ฅผ ์šฐ์ธก Browse๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜์—ฌ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ํ…์ŠคํŠธ๋กœ ์ž…๋ ฅ
  2. Dataset Name: ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์ค‘๋ณต๋˜์ง€ ์•Š๋Š” ์ด๋ฆ„์œผ๋กœ Dataset ์ด๋ฆ„ ์ž…๋ ฅ
  3. Format : ๋ฐ์ดํ„ฐ ํฌ๋งท์„ ์„ ํƒ
    • Csv(text)
    • Parquet
    • ORC
  4. Header exists : ๋ฐ์ดํ„ฐ์— ํ—ค๋” ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์—ˆ๋Š”์ง€ ์—ฌ๋ถ€
  5. Delimiter : ๋ฐ์ดํ„ฐ์˜ ๊ตฌ๋ถ„์ž (default: โ€œ,โ€)
  6. Description : ๋ฐ์ดํ„ฐ ์„ค๋ช…

Dataset ์ˆ˜์ •

Dataset ์ด๋ฆ„, ์„ค๋ช…๊ณผ ์ปฌ๋Ÿผ์˜ Type์„ ์ˆ˜์ • ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

dataset004

  1. Dataset ์ด๋ฆ„๊ณผ ์„ค๋ช… ์ˆ˜์ • ๊ฐ€๋Šฅ
  2. ์ปฌ๋Ÿผ์˜ Type์„ ์ˆ˜์ • ๊ฐ€๋Šฅ
    • Integer Type
    • Long Type
    • Double Type
    • String Type
    • Vector Type
    • Boolean Type
  3. ๋‹ซ๊ธฐ : ์ˆ˜์ •๋‚ด์šฉ์„ ์ทจ์†Œํ•˜๊ณ  ํŒ์—…์„ ๋‹ซ์Œ
  4. ์ €์žฅ : ์ˆ˜์ •๋‚ด์šฉ์„ ์ €์žฅ
  5. ์ดˆ๊ธฐํ™” : ์ˆ˜์ •๋‚ด์šฉ์„ ์ดˆ๊ธฐํ™”