常見的Hadoop和Spark項目有哪些

發布時間：2021-08-17 09:35:27 來源：億速云閱讀：150 作者：小新欄目：服務器

這篇文章主要介紹常見的Hadoop和Spark項目有哪些，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

項目一：數據整合

稱之為“企業級數據中心”或“數據湖”，這個想法是你有不同的數據源，你想對它們進行數據分析。這類項目包括從所有來源獲得數據源（實時或批處理）并且把它們存儲在hadoop中。有時，這是成為一個“數據驅動的公司”的第一步；有時，或許你僅僅需要一份漂亮的報告。“企業級數據中心”通常由HDFS文件系統和HIVE或IMPALA中的表組成。未來，HBase和Phoenix在大數據整合方面將大展拳腳，打開一個新的局面，創建出全新的數據美麗新世界。

銷售人員喜歡說“讀模式”，但事實上，要取得成功，你必須清楚的了解自己的用例將是什么（Hive模式不會看起來與你在企業數據倉庫中所做的不一樣）。真實的原因是一個數據湖比Teradata和Netezza公司有更強的水平擴展性和低得多的成本。許多人在做前端分析時使用Tabelu和Excel。許多復雜的公司以“數據科學家”用Zeppelin或IPython筆記本作為前端。

項目二：專業分析

許多數據整合項目實際上是從你特殊的需求和某一數據集系統的分析開始的。這些往往是令人難以置信的特定領域，如在銀行領域的流動性風險/蒙特卡羅模擬分析。在過去，這種專業的分析依賴于過時的，專有的軟件包，無法擴大數據的規模經常遭受一個有限的功能集（大部分是因為軟件廠商不可能像專業機構那樣了解的那么多）。

在Hadoop和Spark的世界，看看這些系統大致相同的數據整合系統，但往往有更多的HBase，定制非SQL代碼，和更少的數據來源（如果不是唯一的）。他們越來越多地以Spark為基礎。

項目三：Hadoop作為一種服務

在“專業分析”項目的任何大型組織（諷刺的是，一個或兩個“數據整理”項目）他們會不可避免地開始感覺“快樂”（即，疼痛）管理幾個不同配置的Hadoop集群，有時從不同的供應商。接下來，他們會說，“也許我們應該整合這些資源池，”而不是大部分時間讓大部分節點處于資源閑置狀態。它們應該組成云計算，但許多公司經常會因為安全的原因（內部政治和工作保護）不能或不會。這通常意味著很多Docker容器包。

我沒有使用它，但最近Bluedata（藍色數據國際中心）似乎有一個解決方案，這也會吸引小企業缺乏足夠的資金來部署Hadoop作為一種服務。

項目四：流分析

很多人會把這個“流”，但流分析是不同的，從設備流。通常，流分析是一個組織在批處理中的實時版本。以反洗錢和欺詐檢測：為什么不在交易的基礎上，抓住它發生而不是在一個周期結束？同樣的庫存管理或其他任何。
在某些情況下，這是一種新的類型的交易系統，分析數據位的位，因為你將它并聯到一個分析系統中。這些系統證明自己如Spark或Storm與Hbase作為常用的數據存儲。請注意，流分析并不能取代所有形式的分析，對某些你從未考慮過的事情而言，你仍然希望分析歷史趨勢或看過去的數據。

項目五：復雜事件處理

在這里，我們談論的是亞秒級的實時事件處理。雖然還沒有足夠快的超低延遲（皮秒或納秒）的應用，如高端的交易系統，你可以期待毫秒響應時間。例子包括對事物或事件的互聯網電信運營商處理的呼叫數據記錄的實時評價。有時，你會看到這樣的系統使用Spark和HBase——但他們一般落在他們的臉上，必須轉換成Storm，這是基于由LMAX交易所開發的干擾模式。
在過去，這樣的系統已經基于定制的消息或高性能，從貨架上，客戶端-服務器消息產品-但今天的數據量太多了。我還沒有使用它，但Apex項目看起來很有前途，聲稱要比Storm快。

項目六：ETL流

有時你想捕捉流數據并把它們存儲起來。這些項目通常與1號或2號重合，但增加了各自的范圍和特點。（有些人認為他們是4號或5號，但他們實際上是在向磁盤傾倒和分析數據。），這些幾乎都是Kafka和Storm項目。Spark也使用，但沒有理由，因為你不需要在內存分析。

項目七：更換或增加SAS

SAS是精細，是好的但SAS也很貴，我們不需要為你的數據科學家和分析師買存儲你就可以“玩”數據。此外，除SAS可以做或產生漂亮的圖形分析外，你還可以做一些不同的事情。這是你的“數據湖”。這里是IPython筆記本（現在）和Zeppelin（以后）。我們用SAS存儲結果。

當我每天看到其他不同類型的Hadoop，Spark，或Storm項目，這些都是正常的。如果你使用Hadoop，你可能了解它們。幾年前我已經實施了這些項目中的部分案例，使用的是其它技術。

如果你是一個老前輩太害怕“大”或“做”大數據Hadoop，不要擔心。事情越變越多，但本質保持不變。你會發現很多相似之處的東西你用來部署和時髦的技術都是圍繞Hadooposphere旋轉的。

原文作者：Andrew C. Oliver，Andrew C. Oliver是一個專業的牧貓人兼職為一個軟件顧問。他是MammothData的總裁和創始人（原開放軟件集成商），一個坐落于達勒姆，北卡羅來納州的大數據咨詢公司。

以上是“常見的Hadoop和Spark項目有哪些”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

常見的Hadoop和Spark項目有哪些

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

常見的Hadoop和Spark項目有哪些

猜你喜歡

最新資訊

相關推薦

相關標簽