您好,登錄后才能下訂單哦!
本篇內容介紹了“Hive的特點是什么”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
Hive是構建在hadoop上的數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,也急速hi數據提取轉化加載(ETL),并提供簡單的SQL查詢功能,稱為HQL(這邊要和Hibernate區別一下),允許熟悉SQL的用戶查詢數據。它是工作在thrift上的,控制分隔符也允許用戶指定數據格式。
Hive的特點
支持索引,加快數據查詢。
有不同的存儲類型,如HBase中的文件、純文本文件
將元數據保存在關系數據庫中,大大減少了在查詢過程中執行語義檢查的時間
可以直接使用存儲在Hadoop文件系統中的數據
內置大量用戶函數UDF來操作時間、字符串和其他的數據挖掘工具,支持用戶擴展UDF函數來 完成內置函數無法實現的操作
類SQL的查詢方式,將SQL查詢轉換為MapReduce的Job在Hadoop集群上執行。
Hive的缺點
在靜態處理的Hadoop上執行延遲高,作業提交和調度開銷大,有分鐘集的延遲,因此不適合需要低延遲的應用,比如練級事務處理(OLTP)
其中HIVE和hadoop之間的關系
Hive的架構如上圖所示,包含用戶訪問接口(CLI、JDBC/ODBC、WEB GUI和Thrift Server)元數據存儲(Metastore),驅動組件(編譯,優化,執行)。
用戶訪問接口:用戶交互Hive數據倉庫的工具接口。
CLI(command line interface)命令行接口。
Thrift Server可以用不同語言調用Hive接口
HWI(Hive web interface)提供通過網頁訪問Hive提供的服務
Metastore與Hive驅動互聯方式:1.集成模式 2.遠程模式
主要用來存儲Hive中的元數據,一般使用Mysql或者Derby數據庫。
驅動組件包括編譯器、優化器和執行引擎,分別完成詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在HDFS中并在雖有由MapperReduce調用執行。
“Hive的特點是什么”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。