亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

hive怎么建立表存儲格式

發布時間:2021-07-29 19:32:19 來源:億速云 閱讀:228 作者:chen 欄目:云計算

本篇內容主要講解“hive怎么建立表存儲格式”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“hive怎么建立表存儲格式”吧!

hive在建表是,可以通過‘STORED AS FILE_FORMAT’ 指定存儲文件格式
例如:

[plain] view plaincopy

  1. > CREATE EXTERNAL TABLE MYTEST(num INT, name STRING)  

  2. > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'  

  3. > STORED AS TEXTFILE  

  4. > LOCATION '/data/test';  

指定文件存儲格式為“TEXTFILE”。

hive文件存儲格式包括以下幾類:

  • TEXTFILE

  • SEQUENCEFILE

  • RCFILE

  • 自定義格式

TEXTFIEL
默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。
可結合Gzip、Bzip2使用(系統自動檢查,執行查詢時自動解壓),但使用這種方式,hive不會對數據進行切分,從而無法對數據進行并行操作。
實例:

[plain] view plaincopy

  1. > create table test1(str STRING)  

  2. > STORED AS TEXTFILE;   

  3. OK  

  4. Time taken: 0.786 seconds  

  5. #寫腳本生成一個隨機字符串文件,導入文件:  

  6. > LOAD DATA LOCAL INPATH '/home/work/data/test.txt' INTO TABLE test1;  

  7. Copying data from file:/home/work/data/test.txt  

  8. Copying file: file:/home/work/data/test.txt  

  9. Loading data to table default.test1  

  10. OK  

  11. Time taken: 0.243 seconds  


SEQUENCEFILE:
SequenceFile是Hadoop API提供的一種二進制文件支持,其具有使用方便、可分割、可壓縮的特點。
SequenceFile支持三種壓縮選擇:NONE, RECORD, BLOCK。 Record壓縮率低,一般建議使用BLOCK壓縮。
示例:

[plain] view plaincopy

  1. > create table test2(str STRING)  

  2. > STORED AS SEQUENCEFILE;  

  3. OK  

  4. Time taken: 5.526 seconds  

  5. hive> SET hive.exec.compress.output=true;  

  6. hive> SET io.seqfile.compression.type=BLOCK;  

  7. hive> INSERT OVERWRITE TABLE test2 SELECT * FROM test1;  


RCFILE
RCFILE是一種行列存儲相結合的存儲方式。首先,其將數據按行分塊,保證同一個record在一個塊上,避免讀一個記錄需要讀取多個block。其次,塊數據列式存儲,有利于數據壓縮和快速的列存取。RCFILE文件示例:

hive怎么建立表存儲格式

實例:

[plain] view plaincopy

  1. > create table test3(str STRING)  

  2. > STORED AS RCFILE;  

  3. OK  

  4. Time taken: 0.184 seconds  

  5. >  INSERT OVERWRITE TABLE test3 SELECT * FROM test1;  


自定義格式
當用戶的數據文件格式不能被當前 Hive 所識別的時候,可以自定義文件格式。
用戶可以通過實現inputformat和outputformat來自定義輸入輸出格式,參考代碼:
.\hive-0.8.1\src\contrib\src\java\org\apache\hadoop\hive\contrib\fileformat\base64
實例:
建表

[plain] view plaincopy

  1. > create table test4(str STRING)  

  2. > stored as  

  3. > inputformat 'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextInputFormat'  

  4. > outputformat 'org.apache.hadoop.hive.contrib.fileformat.base64.Base64TextOutputFormat';  

$ cat test1.txt 
aGVsbG8saGl2ZQ==
aGVsbG8sd29ybGQ=
aGVsbG8saGFkb29w
test1文件為base64編碼后的內容,decode后數據為:
hello,hive
hello,world
hello,hadoop
load數據并查詢:

[plain] view plaincopy

  1. hive> LOAD DATA LOCAL INPATH '/home/work/test1.txt' INTO TABLE test4;   

  2. Copying data from file:/home/work/test1.txt  

  3. Copying file: file:/home/work/test1.txt  

  4. Loading data to table default.test4  

  5. OK  

  6. Time taken: 4.742 seconds  

  7. hive> select * from test4;  

  8. OK  

  9. hello,hive  

  10. hello,world  

  11. hello,hadoop  

  12. Time taken: 1.953 seconds  


總結:
相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存儲方式,數據加載時性能消耗較大,但是具有較好的壓縮比和查詢響應。數據倉庫的特點是一次寫入、多次讀取,因此,整體來看,RCFILE相比其余兩種格式具有較明顯的優勢。

到此,相信大家對“hive怎么建立表存儲格式”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

汾西县| 南江县| 玉溪市| 石门县| 西昌市| 松溪县| 沈阳市| 岢岚县| 宁南县| 新田县| 榆林市| 竹溪县| 故城县| 上饶县| 江川县| 新巴尔虎右旗| 邵阳市| 调兵山市| 桂平市| 玛纳斯县| 五常市| 铜山县| 方城县| 澄迈县| 鄂托克前旗| 诸城市| 绍兴市| 新乡市| 石城县| 洪洞县| 怀安县| 刚察县| 库车县| 五华县| 肥东县| 新闻| 清镇市| 庄河市| 西充县| 祁门县| 观塘区|