Dataset
Dataset
Dataset ์กฐํ
๋ฑ๋ก๋ Dataset์ ์กฐํ ๋ฐ ๊ด๋ฆฌํฉ๋๋ค.
- ๊ฒ์ : Dataset ์ด๋ฆ, ๊ธฐ๊ฐ์ ์ด์ฉํ์ฌ Dataset์ ๊ฒ์
- ์ถ๊ฐ : Dataset ์ ๊ท ๋ฑ๋ก
- ์ญ์ : Dataset ์ญ์
- Dataset Overview : Dataset Data ์ ๋ณด์ ์ปฌ๋ผ์ ํต๊ณ์ ๋ณด ํ์ธ
- Action icon
- ๋ค์ด๋ก๋ : ํด๋น Dataset์ ๋ก์ปฌ๋ก ๋ค์ด๋ก๋
- ์์ : ํด๋น Dataset ์์
- ์ญ์ : ํด๋น Dataset ์ญ์
Dataset Overview
Dataset Name์ ํด๋ฆญํ์ฌ ๋ฑ๋ก๋ Dataset ์ ๋ณด์ ์ปฌ๋ผ์ ํต๊ณ์ ๋ณด๋ฅผ ์กฐํํฉ๋๋ค.
- Data Overview : ๋ฑ๋ก๋ Dataset Data ์ ๋ณด๋ฅผ ์กฐํ
- ํต๊ณ์ ๋ณด : ์ปฌ๋ผ์ ์ ํํ๊ณ Statistics ๋ฒํผ์ ํด๋ฆญํ๋ฉด ํด๋น ์ปฌ๋ผ์ ํต๊ณ์ ๋ณด ํ์ธ ๊ฐ๋ฅ
- NumericType ๊ฒฝ์ฐ: count, mean, stddev, min, max ํ์
- StringType ๊ฒฝ์ฐ: distinct count ํ์
Dataset ๋ฑ๋ก
Dataset์ ์ ๊ท ๋ฑ๋ก ํฉ๋๋ค.
- ์ ์ฅ๋ Data์ ์์น
- HDFS, ICOS, S3, Local์ ์กด์ฌํ๋ ๊ฒฝ์ฐ, HDFS/ICOS/S3/Local ์์ ๊ฒฝ๋ก๋ฅผ ์ฐ์ธก Browse๋ฒํผ์ ํด๋ฆญํ์ฌ ์ ํํ๊ฑฐ๋ ํ ์คํธ๋ก ์ ๋ ฅ
- Dataset Name: ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๊ณผ ์ค๋ณต๋์ง ์๋ ์ด๋ฆ์ผ๋ก Dataset ์ด๋ฆ ์ ๋ ฅ
- Format : ๋ฐ์ดํฐ ํฌ๋งท์ ์ ํ
- Csv(text)
- Parquet
- ORC
- Header exists : ๋ฐ์ดํฐ์ ํค๋ ์ ๋ณด๊ฐ ํฌํจ๋์๋์ง ์ฌ๋ถ
- Delimiter : ๋ฐ์ดํฐ์ ๊ตฌ๋ถ์ (default: โ,โ)
- Description : ๋ฐ์ดํฐ ์ค๋ช
Dataset ์์
Dataset ์ด๋ฆ, ์ค๋ช ๊ณผ ์ปฌ๋ผ์ Type์ ์์ ํ ์ ์์ต๋๋ค.
- Dataset ์ด๋ฆ๊ณผ ์ค๋ช ์์ ๊ฐ๋ฅ
- ์ปฌ๋ผ์ Type์ ์์ ๊ฐ๋ฅ
- Integer Type
- Long Type
- Double Type
- String Type
- Vector Type
- Boolean Type
- ๋ซ๊ธฐ : ์์ ๋ด์ฉ์ ์ทจ์ํ๊ณ ํ์ ์ ๋ซ์
- ์ ์ฅ : ์์ ๋ด์ฉ์ ์ ์ฅ
- ์ด๊ธฐํ : ์์ ๋ด์ฉ์ ์ด๊ธฐํ