為什么使用Hive和Impala

發布時間：2020-07-18 16:27:09 來源：網絡閱讀：1976 作者：caosheng03 欄目：大數據

Impala 與Hive都是構建在Hadoop之上的數據查詢工具，但是各有不同側重，那么我們為什么要同時使用這兩個工具呢？單獨使用Hive或者Impala不可以嗎？

一、介紹Impala和Hive

（1）Impala和Hive都是提供對HDFS/Hbase數據進行SQL查詢的工具，Hive會轉換成MapReduce，借助于YARN進行調度從而實現對HDFS的數據的訪問，而Impala直接對HDFS進行數據查詢。但是他們都是提供如下的標準SQL語句，在機身里運行。

為什么使用Hive和Impala

（2）Apache Hive是MapReduce的高級抽象，使用HiveQL,Hive可以生成運行在Hadoop集群的MapReduce或Spark作業。Hive最初由Facebook大約在2007年開發,現在是Apache的開源項目。

Apache Impala是高性能的專用SQL引擎，使用Impala SQL，因為Impala無需借助任何的框架，直接實現對數據塊的查詢，所以查詢延遲毫秒級。Impala受到Google的Dremel項目啟發，2012年由Cloudera開發，現在是Apache開源項目。

二、Impala和Hive有什么不同？

（1）Hive有很多的特性：

1、對復雜數據類型（比如arrays和maps）和窗口分析更廣泛的支持

2、高擴展性

3、通常用于批處理

（2）Impala更快

1、專業的SQL引擎，提供了5x到50x更好的性能

2、理想的交互式查詢和數據分析工具

3、更多的特性正在添加進來

三、高級概述：

為什么使用Hive和Impala

四、為什么要使用Hive和Impala?

1、為數據分析人員帶來了海量數據分析能力,不需要軟件開發經驗,運用已掌握的SQL知識進行數據的分析。

2、比直接寫MapReduce或Spark具有更好的生產力，5行HiveQL/Impala SQL等同于200行或更多的Java代碼。

3、提供了與其他系統良好的互操作性，比如通過Java和外部腳本擴展，而且很多商業智能工具支持Hive和Impala。

五、Hive和Impala使用案例

（1）日志文件分析

日志是普遍的數據類型，是當下大數據時代重要的數據源，結構不固定，可以通過Flume和kafka將日志采集放到HDFS，然后分析日志的結構，根據日志的分隔符去建立一個表，接下來運用Hive和Impala 進行數據的分析。例如：

為什么使用Hive和Impala

（2）情感分析

很多組織使用Hive或Impala來分析社交媒體覆蓋情況。例如：

為什么使用Hive和Impala

（3）商業智能

很多領先的BI工具支持Hive和Impala

為什么使用Hive和Impala

看了Hive和Impala的作用及功效闡述，對于掌握Hadoop數據處理有著重要作用。大家在平常要多去積累和總結經驗，不斷提升技能水平。我自己平時除了總結自己的經驗教訓，還喜歡看別人分享的知識，取長補短，對于完善自己的知識架構有著重要作用。像“CSDN”論壇，“大數據cn”，“大數據時代學習中心”微信服務號都挺不錯，總之，努力汲取多方面知識，我們就會取得更大進步！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

為什么使用Hive和Impala

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

為什么使用Hive和Impala

猜你喜歡

最新資訊

相關推薦

相關標簽