怎么解析分布式消息系統Kafka

發布時間：2021-11-23 10:14:27 來源：億速云閱讀：133 作者：柒染欄目：云計算

本篇文章為大家展示了怎么解析分布式消息系統Kafka，內容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

Kafka是分布式發布-訂閱消息系統。它最初由LinkedIn公司開發，之后成為Apache項目的一部分。Kafka是一個分布式的，可劃分的，冗余備份的持久性的日志服務。它主要用于處理活躍的流式數據。

在大數據系統中，常常會碰到一個問題，整個大數據是由各個子系統組成，數據需要在各個子系統中高性能，低延遲的不停流轉。傳統的企業消息系統并不是非常適合大規模的數據處理。為了已在同時搞定在線應用（消息）和離線應用（數據文件，日志）Kafka就出現了。Kafka可以起到兩個作用：

降低系統組網復雜度。
降低編程復雜度，各個子系統不在是相互協商接口，各個子系統類似插口插在插座上，Kafka承擔高速數據總線的作用。

1、Kafka主要特點：

同時為發布和訂閱提供高吞吐量。據了解，Kafka每秒可以生產約25萬消息（50 MB），每秒處理55萬消息（110 MB）。
可進行持久化操作。將消息持久化到磁盤，因此可用于批量消費，例如ETL，以及實時應用程序。通過將數據持久化到硬盤以及replication防止數據丟失。
分布式系統，易于向外擴展。所有的producer、broker和consumer都會有多個，均為分布式的。無需停機即可擴展機器。
消息被處理的狀態是在consumer端維護，而不是由server端維護。當失敗時能自動平衡。
支持online和offline的場景。

2、Kafka的架構：

Kafka的整體架構非常簡單，是顯式分布式架構，producer、broker（kafka）和consumer都可以有多個。Producer，consumer實現Kafka注冊的接口，數據從producer發送到broker，broker承擔一個中間緩存和分發的作用。broker分發注冊到系統中的consumer。broker的作用類似于緩存，即活躍的數據和離線處理系統之間的緩存。客戶端和服務器端的通信，是基于簡單，高性能，且與編程語言無關的TCP協議。

3、幾個基本概念：

Topic：特指Kafka處理的消息源（feeds of messages）的不同分類。
Partition：Topic物理上的分組，一個topic可以分為多個partition，每個partition是一個有序的隊列。partition中的每條消息都會被分配一個有序的id（offset）。
Message：消息，是通信的基本單位，每個producer可以向一個topic（主題）發布一些消息。
Producers：消息和數據生產者，向Kafka的一個topic發布消息的過程叫做producers。
Consumers：消息和數據消費者，訂閱topics并處理其發布的消息的過程叫做consumers。
Broker：緩存代理，Kafa集群中的一臺或多臺服務器統稱為broker。

4、消息發送的流程：

怎么解析分布式消息系統Kafka

Producer根據指定的partition方法（round-robin、hash等），將消息發布到指定topic的partition里面
kafka集群接收到Producer發過來的消息后，將其持久化到硬盤，并保留消息指定時長（可配置），而不關注消息是否被消費。
Consumer從kafka集群pull數據，并控制獲取消息的offset

5、Kafka的設計：

5.1 吞吐量

高吞吐是kafka需要實現的核心目標之一，為此kafka做了以下一些設計：

數據磁盤持久化：消息不在內存中cache，直接寫入到磁盤，充分利用磁盤的順序讀寫性能
zero-copy：減少IO操作步驟
數據批量發送
數據壓縮
Topic劃分為多個partition，提高parallelism

5.2 負載均衡

producer根據用戶指定的算法，將消息發送到指定的partition
存在多個partiiton，每個partition有自己的replica，每個replica分布在不同的Broker節點上
多個partition需要選取出lead partition，lead partition負責讀寫，并由zookeeper負責fail over
通過zookeeper管理broker與consumer的動態加入與離開

5.3 拉取系統

由于kafka broker會持久化數據，broker沒有內存壓力，因此，consumer非常適合采取pull的方式消費數據，具有以下幾點好處：

簡化kafka設計
consumer根據消費能力自主控制消息拉取速度
consumer根據自身情況自主選擇消費模式，例如批量，重復消費，從尾端開始消費等

5.4 可擴展性

當需要增加broker結點時，新增的broker會向zookeeper注冊，而producer及consumer會根據注冊在zookeeper上的watcher感知這些變化，并及時作出調整。

5.5 消息刪除策略

kafka和JMS實現(activeMQ)不同的是:即使消息被消費,消息仍然不會被立即刪除.日志文件將會根據broker中的配置要求,保留一定的時間之后刪除;比如log文件保留2天,那么兩天后,文件會被清除,無論其中的消息是否被消費.kafka通過這種簡單的手段,來釋放磁盤空間.此外,kafka的性能并不會因為日志文件的太多而低下,所以即使保留較多的log文件,也不不會有問題.

kafka中consumer負責維護消息的消費記錄,而broker則不關心這些,這種設計不僅提高了consumer端的靈活性,也適度的減輕了broker端設計的復雜度;這是和眾多JMS prodiver的區別.此外,kafka中消息ACK的設計也和JMS有很大不同,kafka中的消息時批量(通常以消息的條數或者chunk的尺寸為單位)發送給consumer,當消息消費成功后,向zookeeper提交消息的offset,而不會向broker交付ACK.或許你已經意識到,這種"寬松"的設計,將會有"丟失"消息/"消息重發"的危險.

6、Kafka的應用場景：

6.1 消息隊列

比起大多數的消息系統來說，Kafka有更好的吞吐量，內置的分區，冗余及容錯性，這讓Kafka成為了一個很好的大規模消息處理應用的解決方案。消息系統一般吞吐量相對較低，但是需要更小的端到端延時，并嘗嘗依賴于Kafka提供的強大的持久性保障。在這個領域，Kafka足以媲美傳統消息系統，如ActiveMR或RabbitMQ。

6.2 行為跟蹤

Kafka的另一個應用場景是跟蹤用戶瀏覽頁面、搜索及其他行為，以發布-訂閱的模式實時記錄到對應的topic里。那么這些結果被訂閱者拿到后，就可以做進一步的實時處理，或實時監控，或放到hadoop/離線數據倉庫里處理。

6.3 元信息監控

作為操作記錄的監控模塊來使用，即匯集記錄一些操作信息，可以理解為運維性質的數據監控吧。

6.4 日志收集

日志收集方面，其實開源產品有很多，包括Scribe、Apache Flume。很多人使用Kafka代替日志聚合（log aggregation）。日志聚合一般來說是從服務器上收集日志文件，然后放到一個集中的位置（文件服務器或HDFS）進行處理。然而Kafka忽略掉文件的細節，將其更清晰地抽象成一個個日志或事件的消息流。這就讓Kafka處理過程延遲更低，更容易支持多數據源和分布式數據處理。比起以日志為中心的系統比如Scribe或者Flume來說，Kafka提供同樣高效的性能和因為復制導致的更高的耐用性保證，以及更低的端到端延遲。

6.5 流處理

這個場景可能比較多，也很好理解。保存收集流數據，以提供之后對接的Storm或其他流式計算框架進行處理。很多用戶會將那些從原始topic來的數據進行階段性處理，匯總，擴充或者以其他的方式轉換到新的topic下再繼續后面的處理。例如一個文章推薦的處理流程，可能是先從RSS數據源中抓取文章的內容，然后將其丟入一個叫做“文章”的topic中；后續操作可能是需要對這個內容進行清理，比如回復正常數據或者刪除重復數據，最后再將內容匹配的結果返還給用戶。這就在一個獨立的topic之外，產生了一系列的實時數據處理的流程。Strom和Samza是非常著名的實現這種類型數據轉換的框架。

6.6 事件源

事件源是一種應用程序設計的方式，該方式的狀態轉移被記錄為按時間順序排序的記錄序列。Kafka可以存儲大量的日志數據，這使得它成為一個對這種方式的應用來說絕佳的后臺。比如動態匯總（News feed）。

6.7 持久性日志（commit log）

Kafka可以為一種外部的持久性日志的分布式系統提供服務。這種日志可以在節點間備份數據，并為故障節點數據回復提供一種重新同步的機制。Kafka中日志壓縮功能為這種用法提供了條件。在這種用法中，Kafka類似于Apache BookKeeper項目。

7、Kafka的設計要點：

7.1 直接使用linux 文件系統的cache，來高效緩存數據。

7.2 采用linux Zero-Copy提高發送性能。

傳統的數據發送需要發送4次上下文切換，采用sendfile系統調用之后，數據直接在內核態交換，系統上下文切換減少為2次。根據測試結果，可以提高60%的數據發送性能。Zero-Copy詳細的技術細節可以參考：https://www.ibm.com/developerworks/linux/library/j-zerocopy/

7.3 數據在磁盤上存取代價為O(1)。

kafka以topic來進行消息管理，每個topic包含多個part（ition），每個part對應一個邏輯log，有多個segment組成。每個segment中存儲多條消息（見下圖），消息id由其邏輯位置決定，即從消息id可直接定位到消息的存儲位置，避免id到位置的額外映射。每個part在內存中對應一個index，記錄每個segment中的第一條消息偏移。發布者發到某個topic的消息會被均勻的分布到多個part上（隨機或根據用戶指定的回調函數進行分布），broker收到發布消息往對應part的最后一個segment上添加該消息，當某個segment上的消息條數達到配置值或消息發布時間超過閾值時，segment上的消息會被flush到磁盤，只有flush到磁盤上的消息訂閱者才能訂閱到，segment達到一定的大小后將不會再往該segment寫數據，broker會創建新的segment。

7.4 顯式分布式。

即所有的producer、broker和consumer都會有多個，均為分布式的。Producer和broker之間沒有負載均衡機制。broker和consumer之間利用zookeeper進行負載均衡。所有broker和consumer都會在zookeeper中進行注冊，且zookeeper會保存他們的一些元數據信息。如果某個broker和consumer發生了變化，所有其他的broker和consumer都會得到通知。

上述內容就是怎么解析分布式消息系統Kafka，你們學到知識或技能了嗎？如果還想學到更多技能或者豐富自己的知識儲備，歡迎關注億速云行業資訊頻道。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎么解析分布式消息系統Kafka

1、Kafka主要特點：

2、Kafka的架構：

3、幾個基本概念：

4、消息發送的流程：

5、Kafka的設計：

5.1 吞吐量

5.2 負載均衡

5.3 拉取系統

5.4 可擴展性

5.5 消息刪除策略

6、Kafka的應用場景：

6.1 消息隊列

6.2 行為跟蹤

6.3 元信息監控

6.4 日志收集

6.5 流處理

6.6 事件源

6.7 持久性日志（commit log）

7、Kafka的設計要點：

7.1 直接使用linux 文件系統的cache，來高效緩存數據。

7.2 采用linux Zero-Copy提高發送性能。

7.3 數據在磁盤上存取代價為O(1)。

7.4 顯式分布式。

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎么解析分布式消息系統Kafka

1、Kafka主要特點：

2、Kafka的架構：

3、幾個基本概念：

4、消息發送的流程：

5、Kafka的設計：

5.1 吞吐量

5.2 負載均衡

5.3 拉取系統

5.4 可擴展性

5.5 消息刪除策略

6、Kafka的應用場景：

6.1 消息隊列

6.2 行為跟蹤

6.3 元信息監控

6.4 日志收集

6.5 流處理

6.6 事件源

6.7 持久性日志（commit log）

7、Kafka的設計要點：

7.1 直接使用linux 文件系統的cache，來高效緩存數據。

7.2 采用linux Zero-Copy提高發送性能。

7.3 數據在磁盤上存取代價為O(1)。

7.4 顯式分布式。

猜你喜歡

最新資訊

相關推薦

相關標簽