怎樣分析Apache Druid

發布時間：2021-12-10 16:11:50 來源：億速云閱讀：165 作者：柒染欄目：大數據

這篇文章給大家介紹怎樣分析Apache Druid，內容非常詳細，感興趣的小伙伴們可以參考借鑒，希望對大家能有所幫助。

概覽

Apache Druid 是一個高性能的實時分析型數據庫。

一個現代化的云原生，流原生，分析型數據庫
Druid 是為快速查詢和快速攝入數據的工作流而設計的。Druid 強在有強大的 UI，運行時可操作查詢，和高性能并發處理。Druid 可以被視為一個滿足多樣化用戶場景的數據倉庫的開源替代品。
輕松與現有的數據管道集成
Druid 可以從消息總線流式獲取數據（如 Kafka，Amazon Kinesis），或從數據湖批量加載文件（如 HDFS，Amazon S3 和其他同類數據源）。
比傳統方案快 100 倍的性能
Druid 對數據攝入和數據查詢的基準性能測試大大超過了傳統解決方案。
Druid 的架構融合了數據倉庫，時間序列數據庫和檢索系統最好的特性。
解鎖新的工作流
Druid 為 Clickstream，APM(應用性能管理系統)，supply chain(供應鏈)，網絡遙測，數字營銷和其他事件驅動形式的場景解鎖了新的查詢方式和工作流。Druid 專為實時和歷史數據的快速臨時查詢而構建。
部署在 AWS/GCP/Azure，混合云，k8s 和租用服務器上
Druid 可以部署在任何*NIX 環境中。無論是內部環境還是云環境。部署 Druid 是非常 easy 的：通過添加或刪減服務來擴容縮容。

使用場景

Apache Druid 適用于對實時數據提取，高性能查詢和高可用要求較高的場景。因此，Druid 通常被作為一個具有豐富 GUI 的分析系統，或者作為一個需要快速聚合的高并發 API 的后臺。Druid 更適合面向事件數據。

比較常見的使用場景：

點擊流分析（web 和 mobile 分析）
風控分析
網路遙測分析（網絡性能監控）
服務器指標存儲
供應鏈分析（制造業指標）
應用性能指標
商業智能/實時在線分析系統 OLAP

下面將詳細分析這些使用場景：

用戶活動和行為

Druid 經常用在點擊流，訪問流，和活動流數據上。具體場景包括：衡量用戶參與度，為產品發布追蹤 A/B 測試數據，并了解用戶使用方式。Druid 可以做到精確和近似計算用戶指標，例如不重復計數指標。這意味著，如日活用戶指標可以在一秒鐘計算出近似值(平均精度 98%)，以查看總體趨勢，或精確計算以展示給利益相關者。Druid 可以用來做“漏斗分析”，去測量有多少用戶做了某種操作，而沒有做另一個操作。這對產品追蹤用戶注冊十分有用。

網絡流

Druid 常常用來收集和分析網絡流數據。Druid 被用于管理以任意屬性切分組合的流數據。Druid 能夠提取大量網絡流記錄，并且能夠在查詢時快速對數十個屬性組合和排序，這有助于網絡流分析。這些屬性包括一些核心屬性，如 IP 和端口號，也包括一些額外添加的強化屬性，如地理位置，服務，應用，設備和 ASN。Druid 能夠處理非固定模式，這意味著你可以添加任何你想要的屬性。

數字營銷

Druid 常常用來存儲和查詢在線廣告數據。這些數據通常來自廣告服務商，它對衡量和理解廣告活動效果，點擊穿透率，轉換率（消耗率）等指標至關重要。

Druid 最初就是被設計成一個面向廣告數據的強大的面向用戶的分析型應用程序。在存儲廣告數據方面，Druid 已經有大量生產實踐，全世界有大量用戶在上千臺服務器上存儲了 PB 級數據。

應用性能管理

Druid 常常用于追蹤應用程序生成的可運營數據。和用戶活動使用場景類似，這些數據可以是關于用戶怎樣和應用程序交互的，它可以是應用程序自身上報的指標數據。Druid 可用于下鉆發現應用程序不同組件的性能如何，定位瓶頸，和發現問題。

不像許多傳統解決方案，Druid 具有更小存儲容量，更小復雜度，更大數據吞吐的特點。它可以快速分析數以千計屬性的應用事件，并計算復雜的加載，性能，利用率指標。比如，基于百分之 95 查詢延遲的 API 終端。我們可以以任何臨時屬性組織和切分數據，如以天為時間切分數據，如以用戶畫像統計，如按數據中心位置統計。

物聯網和設備指標

Driud 可以作為時間序列數據庫解決方案，來存儲處理服務器和設備的指標數據。收集機器生成的實時數據，執行快速臨時的分析，去估量性能，優化硬件資源，和定位問題。

和許多傳統時間序列數據庫不同，Druid 本質上是一個分析引擎。Druid 融合了時間序列數據庫，列式分析數據庫，和檢索系統的理念。它在單個系統中支持了基于時間分區，列式存儲，和搜索索引。這意味著基于時間的查詢，數字聚合，和檢索過濾查詢都會特別快。

你可以在你的指標中包括百萬唯一維度值，并隨意按任何維度組合 group 和 filter(Druid 中的 dimension 維度類似于時間序列數據庫中的 tag)。你可以基于 tag group 和 rank，并計算大量復雜的指標。而且你在 tag 上檢索和過濾會比傳統時間序列數據庫更快。

OLAP 和商業智能

Druid 經常用于商業智能場景。公司部署 Druid 去加速查詢和增強應用。和基于 Hadoop 的 SQL 引擎(如 Presto 或 Hive)不同，Druid 為高并發和亞秒級查詢而設計，通過 UI 強化交互式數據查詢。這使得 Druid 更適合做真實的可視化交互分析。

技術

Apache Druid 是一個開源的分布式數據存儲引擎。Druid 的核心設計融合了 OLAP/analytic databases，timeseries database，和 search systems 的理念，以創造一個適用廣泛用例的統一系統。Druid 將這三種系統的主要特性融合進 Druid 的 ingestion layer(數據攝入層)，storage format(存儲格式化層)，querying layer(查詢層)，和 core architecture(核心架構)中。

Druid 的主要特性包括：

列式存儲
Druid 單獨存儲并壓縮每一列數據。并且查詢時只查詢特定需要查詢的數據，支持快速 scan，ranking 和 groupBy。
原生檢索索引
Druid 為 string 值創建反向索引以達到數據的快速搜索和過濾。
流式和批量數據攝入
開箱即用的 Apache kafka，HDFS，AWS S3 連接器 connectors，流式處理器。
靈活的數據模式
Druid 優雅地適應不斷變化的數據模式和嵌套數據類型。
基于時間的優化分區
Druid 基于時間對數據進行智能分區。因此，Druid 基于時間的查詢將明顯快于傳統數據庫。
支持 SQL 語句
除了原生的基于 JSON 的查詢外，Druid 還支持基于 HTTP 和 JDBC 的 SQL。
水平擴展能力
百萬/秒的數據攝入速率，海量數據存儲，亞秒級查詢。
易于運維
可以通過添加或移除 Server 來擴容和縮容。Druid 支持自動重平衡，失效轉移。

數據攝入

Druid 同時支持流式和批量數據攝入。Druid 通常通過像 Kafka 這樣的消息總線（加載流式數據）或通過像 HDFS 這樣的分布式文件系統（加載批量數據）來連接原始數據源。

Druid 通過 Indexing 處理將原始數據以 segment 的方式存儲在數據節點，segment 是一種查詢優化的數據結構。

數據存儲

像大多數分析型數據庫一樣，Druid 采用列式存儲。根據不同列的數據類型（string，number 等），Druid 對其使用不同的壓縮和編碼方式。Druid 也會針對不同的列類型構建不同類型的索引。

類似于檢索系統，Druid 為 string 列創建反向索引，以達到更快速的搜索和過濾。類似于時間序列數據庫，Druid 基于時間對數據進行智能分區，以達到更快的基于時間的查詢。

不像大多數傳統系統，Druid 可以在數據攝入前對數據進行預聚合。這種預聚合操作被稱之為 rollup，這樣就可以顯著的節省存儲成本。

查詢

Druid 支持 JSON-over-HTTP 和 SQL 兩種查詢方式。除了標準的 SQL 操作外，Druid 還支持大量的唯一性操作，利用 Druid 提供的算法套件可以快速的進行計數，排名和分位數計算。

架構

Druid 是微服務架構，可以理解為一個拆解成多個服務的數據庫。Druid 的每一個核心服務(ingestion(攝入服務)，querying(查詢服務)，和 coordination(協調服務))都可以單獨部署或聯合部署在商業硬件上。

Druid 清晰的命名每一個服務，以確保運維人員可以根據使用情況和負載情況很好地調整相應服務的參數。例如，當負載需要時，運維人員可以給數據攝入服務更多的資源而減少數據查詢服務的資源。

Druid 可以獨立失敗而不影響其他服務的運行。

運維

Drui 被設計成一個健壯的系統，它需要 7*24 小時運行。Druid 擁有以下特性，以確保長期運行，并保證數據不丟失。

數據副本
Druid 根據配置的副本數創建多個數據副本，所以單機失效不會影響 Druid 的查詢。
獨立服務
Druid 清晰的命名每一個主服務，每一個服務都可以根據使用情況做相應的調整。服務可以獨立失敗而不影響其他服務的正常運行。例如，如果數據攝入服務失效了，將沒有新的數據被加載進系統，但是已經存在的數據依然可以被查詢。
自動數據備份
Druid 自動備份所有已經 indexed 的數據到一個文件系統，它可以是分布式文件系統，如 HDFS。你可以丟失所有 Druid 集群的數據，并快速從備份數據中重新加載。
滾動更新
通過滾動更新，你可以在不停機的情況下更新 Druid 集群，這樣對用戶就是無感知的。所有 Druid 版本都是向后兼容。

關于怎樣分析Apache Druid就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

怎樣分析Apache Druid

概覽