亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

使用Apache Flume抓取數據(1)

發布時間:2020-07-10 09:30:05 來源:網絡 閱讀:1252 作者:caosheng03 欄目:大數據


使用Apache Flume抓取數據,怎么來抓取呢?不過,在了解這個問題之前,我們必須明確ApacheFlume是什么?

一、什么是Apache Flume

Apache Flume是用于數據采集的高性能系統 ,名字來源于原始的近乎實時的日志數據采集工具,現在廣泛用于任何流事件數據的采集,支持從很多數據源聚合數據到HDFS。

最初由Cloudera開發 ,在2011年貢獻給了Apache基金會 ,在2012年變成了Apache的頂級項目,Flume OG升級換代成了Flume NG。

Flume具有橫向擴展、延展性、可靠性的優勢

二、Flume 體系結構

Source:接受外部系統生成event

Sink:發送event到指定的目的地

Channel:從Source緩存event,直到Sink把event取走

Agent:一個獨立的Flume進程,包含了source,channel和sink組件

三、Flume設計目標:可靠性

Channels提供了Flume可靠性保障 ,那么它通過什么樣的方式來保障呢?默認的模式就是Memory Channel,Memory Channel就是內存,所有的數據存放在內存當中。那么,這里就會存在一個問題?如果Channel的節點出現斷電,數據就會丟失。為解決這一問題,這里有另外一種模式,就是基于磁盤的Channel,基于磁盤的隊列確保出現斷電時數據不丟失 。

另外,Agent和Channel之間的數據傳輸是事務性的 ,傳輸給下游agent失敗的數據會回滾和重試 。相同的任務可以配置多個Agent,

比如,兩個agent完成一個數據采集作業,如果一個agent失敗,則上游的agent會失敗切換到另一個。

四、Flume設計目標:擴展性

當我們采集的數據特別多的時候,可以通過添加更多的系統資源從而線性地增加系統性能。而且Flume可橫向的擴展規模 ,隨著復雜增加,可以添加更多的機器到配置當中 。

五、Flume設計目標:延展性

延展性就是能夠添加新的功能到系統中。Flume通過添加Sources和Sinks到現有的存儲層或數據平臺,常見的Sources包括files、syslog和任何linux進程的標準輸出的數據;常用Sinks包括本地文件系統或HDFS,開發員可以寫自己的Sources或Sinks。

六、常見的Flume數據源

使用Apache  Flume抓取數據(1)

七、大規模部署實例

Flume使用agents收集數據 ,Agents可以從很多源接收數據,包括其他agents。大規模的部署使用多層來實現擴展性和可靠,Flume支持傳輸中數據的檢查和修改。

使用Apache  Flume抓取數據(1)

以上就是關于Apache Flume的部分詳情介紹,后續將會繼續分享。大數據將會是未來的風口,要想很好的站在風口上,就要持續不斷地學習和努力,這里推薦大家關注一個微信公眾號“大數據cn ”,里面有很多關于大數據知識的介紹,對于想要了解和學習大數據的人是一個很好的平臺。

 

 


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

常熟市| 明溪县| 烟台市| 商洛市| 屏东市| 红桥区| 永德县| 株洲县| 什邡市| 大兴区| 开江县| 通榆县| 红桥区| 潜山县| 永川市| 青龙| 陈巴尔虎旗| 武山县| 故城县| 西峡县| 桑日县| 横山县| 玉龙| 庆阳市| 泸定县| 钟山县| 上林县| 宁都县| 抚顺县| 云龙县| 泌阳县| 太仓市| 岚皋县| 九江县| 民丰县| 鱼台县| 吉安市| 安顺市| 伊金霍洛旗| 武川县| 上林县|