hiveToHdfs

Definition

์›๊ฒฉ์— ์žˆ๋Š” Hive ํ…Œ์ด๋ธ” ๋ฐ์ดํ„ฐ๋ฅผ HDFS๋กœ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค. ์ขŒ์ธก [Flow๊ตฌ์„ฑ]๋…ธ๋“œ ์ค‘ [hiveToHdfs]๋…ธ๋“œ๋ฅผ drag & drop ํ•œ ํ›„ Property ํ•ญ๋ชฉ์„ ์ž…๋ ฅํ•œ๋‹ค. Property ํŒจ๋„์˜ [๋”๋ณด๊ธฐ+] ๋ฒ„ํŠผ์„ ๋ˆ„๋ฅด๋ฉด ์ž…๋ ฅ๊ฐ€๋Šฅํ•œ ์ „์ฒด Property ํ•ญ๋ชฉ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Set

[setting], [scheduler], [parameter] ์„ค์ •์€ [์›Œํฌํ”Œ๋กœ์šฐ ์ƒ์„ฑ] > [์„ค์ •]์„ ์ฐธ๊ณ ํ•œ๋‹ค.

property

[Node Description] ์ž‘์„ฑ ์ค‘์ธ ๋…ธ๋“œ๋ช… ์ž…๋ ฅ

flow009

  1. prepare : ๋…ธ๋“œ ์‹คํ–‰ ๊ฒฐ๊ณผ๋ฅผ HDFS์— ์ €์žฅํ•˜๊ธฐ ์œ„ํ•ด ํŒŒ์ผ์‚ญ์ œ/ํด๋”์ƒ์„ฑ ์ž‘์—… ์„  ์ˆ˜ํ–‰(์›Œํฌํ”Œ๋กœ์šฐ ๋ฐ˜๋ณต์‹คํ–‰ ์‹œ ํ™œ์šฉ๊ฐ€๋Šฅ)
    • delete : ๋…ธ๋“œ ์‹คํ–‰ ์ „ ์‚ญ์ œํ•  ํด๋”/ํŒŒ์ผ ๊ฒฝ๋กœ
    • mkdir : ๋…ธ๋“œ ์‹คํ–‰ ์ „ ์ƒ์„ฑํ•  ํด๋” ๊ฒฝ๋กœ
  2. cluster : Hive๋ฅผ ์ˆ˜ํ–‰ํ•  ํด๋Ÿฌ์Šคํ„ฐ(์ง์ ‘ ์ž…๋ ฅ ์„ ํƒ์‹œ 3,4,5 ์ •๋ณด ์ง์ ‘ ์ž…๋ ฅ)
  3. url : HIVE ์ ‘์† ์ฃผ์†Œ(JDBC URL). jdbc:hive2://hdp-master01:10000
  4. user : Hive ์‚ฌ์šฉ์ž ์ด๋ฆ„
  5. password : Hive ์‚ฌ์šฉ์ž ์•”ํ˜ธ
  6. path : ๊ฒฐ๊ณผ๋ฌผ์„ ์ €์žฅํ•  HDFS ๊ฒฝ๋กœ
  7. filename : ์ €์žฅํ•  ํŒŒ์ผ ์ด๋ฆ„
  8. header : ์ปฌ๋Ÿผ ๋ช… ํ—ค๋” ํฌํ•จ ์œ ๋ฌด
    • ์ฒดํฌ๋ฐ•์Šค ์„ ํƒ : ์ปฌ๋Ÿผ์ •๋ณด ํฌํ•จ
    • ์ฒดํฌ๋ฐ•์Šค ํ•ด์ œ : ์ปฌ๋Ÿผ์ •๋ณด ๋ฏธํฌํ•จ
  9. overwrite : HDFS์— ํ•ด๋‹น ํŒŒ์ผ์ด ์กด์žฌํ• ๊ฒฝ์šฐ overwrite/append ์—ฌ๋ถ€
    • ์ฒดํฌ๋ฐ•์Šค ์„ ํƒ : overwrite ์ˆ˜ํ–‰(ํ•ด๋‹น ํŒŒ์ผ ๋ฎ์–ด์“ฐ๊ธฐ)
    • ์ฒดํฌ๋ฐ•์Šค ํ•ด์ œ : append ์ˆ˜ํ–‰(ํ•ด๋‹น ํŒŒ์ผ์— ๋‚ด์šฉ append)
  10. delimiter : HDFS์— ์ €์žฅํ•  ๊ฒฐ๊ณผ๋ฌผ ํŒŒ์ผ์˜ ๊ตฌ๋ถ„์ž
  11. sql : ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ค๊ธฐ ์œ„ํ•œ SQL ์ž…๋ ฅ(SELECT ์ฟผ๋ฆฌ ์‚ฌ์šฉ)
  12. version : Hive ๋ฒ„์ „(1.2.1, 3.1.1 ์ค‘ ํƒ1)
  13. retry
    • max : ์‹คํ–‰ ์‹คํŒจ ์‹œ ์žฌ์‹œ๋„ ํšŸ์ˆ˜
    • period : ์žฌ์‹œ๋„ ์ฃผ๊ธฐ(๋ถ„ ๋‹จ์œ„)
  14. forceOK : ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๊ฐ€ ์‹คํŒจํ•ด๋„ ์ •์ƒ์œผ๋กœ ํ‘œ์‹œํ•˜๊ณ  ์ข…๋ฃŒ

Example

kbtest ํด๋Ÿฌ์Šคํ„ฐ hive์— ์ €์žฅ๋œ iris ํ…Œ์ด๋ธ”์„ ์กฐํšŒํ•˜์—ฌ test1234 ํด๋Ÿฌ์Šคํ„ฐ์— result.csv ํŒŒ์ผ๋กœ ์ €์žฅํ•œ๋‹ค.

  1. [๋ธŒ๋ผ์šฐ์ €] > [HIVE] ์—์„œ kbtest ํด๋Ÿฌ์Šคํ„ฐ Hive ๊ณ„์ •์˜ iris ํ…Œ์ด๋ธ” ๋‚ด์—ญ์„ ํ™•์ธํ•œ๋‹ค.

flow030

  1. setting, property ํŒจ๋„์—์„œ ์•„๋ž˜์™€ ๊ฐ™์ด ์ž…๋ ฅํ•œ๋‹ค.

    โ‘  setting ํŒจ๋„์—์„œ [hiveToHdfs] ๋…ธ๋“œ๋ฅผ ์‹คํ–‰ํ•  ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์„ ํƒ
    โ‘ก property ํŒจ๋„์—์„œ hive๊ฐ€ ์œ„์น˜ํ•œ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ์„ ํƒ
    โ‘ข path ์ž…๋ ฅํ•ญ๋ชฉ์˜ ํŒŒ์ผ ๋ธŒ๋ผ์šฐ์ €๋ฅผ ์—ด์–ด์„œ result.csvํŒŒ์ผ์„ ์ €์žฅํ•  ๊ฒฝ๋กœ ์„ ํƒ
    โ‘ฃ query ์ž…๋ ฅ

flow031

flow032

  1. ์›Œํฌํ”Œ๋กœ์šฐ ์‹คํ–‰๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

flow033