從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

發布時間：2020-07-11 07:34:54 來源：網絡閱讀：452 作者：Ververica 欄目：大數據

作者：陳越晨

整理：劉河

本文將為大家介紹Apache Flink在愛奇藝的生產與實踐過程。你可以借此了解到愛奇藝引入Apache Flink的背景與挑戰，以及平臺構建化流程。主要內容如下：

愛奇藝在實時計算方面的的演化和遇到的一些挑戰

愛奇藝使用Flink的User Case

愛奇藝Flink平臺化構建流程

愛奇藝在Flink上的改進

未來工作

愛奇藝簡介

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進 cdn.xitu.io/2019/5/22/16ade66402c6f94d?w=1034&h=386&f=png&s=136360">

愛奇藝在2010年正式上線，于2018年3月份在納斯達克上市。我們擁有規模龐大且高度活躍的用戶基礎，月活躍用戶數5.65億人，在在線視頻領域名列第一。在移動端，愛奇藝月度總有效時長59.08億小時，穩居中國APP榜第三名。

一、愛奇藝在實時計算方面的演化和遇到的一些挑戰

1. 實時計算在愛奇藝的演化過程

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

實時計算是基于一些實時到達、速率不可控、到達次序獨立不保證順序、一經處理無法重放除非特意保存的無序時間序列的數據的在線計算。

因此，在實時計算中，會遇到數據亂序、數據延時、事件時間與處理時間不一致等問題。愛奇藝的峰值事件數達到1100萬/秒，在正確性、容錯、性能、延遲、吞吐量、擴展性等方面均遇到不小的挑戰。

愛奇藝從2013年開始小規模使用storm，部署了3個獨立集群。在2015年，開始引入Spark Streaming，部署在YARN上。在2016年，將Spark Streaming平臺化，構建流計算平臺，降低用戶使用成本，之后流計算開始在愛奇藝大規模使用。在2017年，因為Spark Streaming的先天缺陷，引入Flink，部署在獨立集群和YARN上。在2018年，構建Streaming SQL與實時分析平臺，進一步降低用戶使用門檻。

2. 從Spark Streaming到Apache Flink

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

愛奇藝主要使用的是Spark Streaming和Flink來進行流式計算。Spark Streaming的實現非常簡單，通過微批次將實時數據拆成一個個批處理任務，通過批處理的方式完成各個子Batch。Spark Streaming的API也非常簡單靈活，既可以用DStream的java/scala API，也可以使用SQL定義處理邏輯。但Spark Streaming受限于微批次處理模型，業務方需要完成一個真正意義上的實時計算會非常困難，比如基于數據事件時間、數據晚到后的處理，都得用戶進行大量編程實現。愛奇藝這邊大量使用Spark Streaming的場景往往都在于實時數據的采集落盤。

Apache Flink框架的實時計算模型是基于Dataflow Model實現的，完全支持Dataflow Model的四個問題：What，支持定義DAG圖；Where：定義各類窗口（固定窗口、滑動窗口和Session窗口）；When：支持靈活定義計算觸發時間；How：支持豐富的Function定義數據更新模式。和Spark Streaming一樣，Flink支持分層API，支持DataStream API，Process Function，SQL。Flink最大特點在于其實時計算的正確性保證：Exactly once，原生支持事件時間，支持延時數據處理。由于Flink本身基于原生數據流計算，可以達到毫秒級低延時。

在愛奇藝實測下來，相比Spark Streaming，Apache Flink在相近的吞吐量上，有更低的延時，更好的實時計算表述能力，原生實時事件時間、延時數據處理等。

二、在愛奇藝使用Flink的一些案例

下面通過三個Use Case來介紹一下，愛奇藝具體是怎么使用Flink的，包括海量數據實時ETL，實時風控，分布式調用鏈分析。

1. 海量數據實時ETL

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

在愛奇藝這邊所有用戶在端上的任何行為都會發一條日志到nginx服務器上，總量超過千萬QPS。對于具體某個業務來說，他們后續做實時分析，只希望訪問到業務自身的數據，于是這中間就涉及一個數據拆分的工作。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

在引入Flink之前，最早的數據拆分邏輯是這樣子的，在Ngnix機器上通過“tail -f /xxx/ngnix.log | grep "xxx"”的方式，配置了無數條這樣的規則，將這些不同的數據按照不同的規則，打到不同的業務kafka中。但這樣的規則隨著業務線的規模的擴大，這個tail進程越來越多，逐漸遇到了服務器性能瓶頸。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

于是，我們就有了這樣一個設想，希望通過實時流計算將數據拆分到各個業務kafka。具體來說，就是Nginx上的全量數據，全量采集到一級Kafka，通過實時ETL程序，按需將數據采集到各個業務Kafka中。當時，愛奇藝主的實時流計算基本均是基于Spark Streaming的，但考慮到Spark Streaming延遲相對來說比較高，愛奇藝從這個case展開開始推進Apache Flink的應用。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

海量數據實時ETL的具體實現，主要有以下幾個步驟：

解碼：各個端的投遞日志格式不統一，需要首先將各個端的日志按照各種解碼方式解析成規范化的格式，這邊選用的是JSON
風控：實時拆分這邊的數據都會過一下風控的規則，過濾掉很大一部分刷量日志。由于量級太高，如果將每條日志都過一下風控規則，延時會非常大。這邊做了幾個優化，首先，將用戶數據通過DeviceID拆分，不同的DeviceID拆分到不同的task manager上，每個task manager用本地內存做一級緩存，將redis和flink部署在一起，用本地redis做二級緩存。最終的效果是，每秒redis訪問降到了平均4k，實時拆分的P99延時小于500ms。
拆分：按照各個業務進行拆分
采樣、再過濾：根據每個業務的拆分過程中根據用戶的需求不同，有采樣、再過濾等過程

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

2. 實時風控

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

防機器撞庫盜號***是安全風控的一個常見需求，主要需求集中于事中和事后。在事中，進行超高頻異常檢測分析，過濾用戶異常行為；在事后，生成IP和設備ID的黑名單，供各業務實時分析時進行防刷使用。

以下是兩個使用Flink特性的案例：

CEP：因為很多黑產用戶是有固定的一些套路，比如剛注冊的用戶可能在短時間內會進行一兩項操作，我們通過CEP模式匹配，過濾掉那些有固定套路的黑產行為
多窗口聚合：風控這邊會有一些需求，它需要在不同的一些時間窗口，有些時間窗口要求比較苛刻，可能是需要在一秒內或亞秒內去看一下某個用戶有多少次訪問，然后對他進行計數，計數的結果超過某些閾值就判斷他是異常用戶。通過Flink低延時且支持多窗口的特點，進行超高頻的異常檢測，比如對同一個用戶在1秒內的請求進行計數，超過某個閾值的話就會被識別成黑產。

3. 分布式追蹤系統

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

分布式調用鏈追蹤系統，即全鏈路監控，每個公司基本都會有。在一個微服務架構當中，服務間的調用關系錯綜復雜，往往很難排查問題，識別性能性能瓶頸，這時候就需要分布式調用鏈追蹤系統了。

上圖是一個調用鏈的追蹤拓撲圖，每個點是一個具體的一個應用，就是具體經過哪個應用，每條邊是說明這個應用到下一個應用當中耗時了多久。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

除了宏觀分析外，業務還想去看具體某一條日志的分析，具體某一次調用它是哪里慢了，哪里快了？所以，調用鏈還有另外一個需求，就是對于具體某次調用，想看一下它的具體耗時。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

系統簡單架構如上圖，上半部分偏重于埋點，下半部分偏于分析。埋點簡單來講，就是通過客戶端SDK埋點以及Agent采集，將系統調用日志全部打到Kafka中，我們通過Flink對他們進行各類分析。對于統計類的分析，就是通過Flink計算存儲到HBase當中，提供一些監控報警、調用鏈拓普查詢等這種分析。針對這類需求，我們運用了Flink的多窗口聚合的特性，通過一分鐘或者多分鐘的窗口，從茫茫日志中尋找哪條是實際的調用鏈，構建APP各個應用的拓撲調用關系，第二級是基于第一級分析的一個結果，分析出那個拓普圖按各個窗口、各個不同的邊去算每條邊的平均耗時的統計。除此之外，我們還將通過Flink將原始數據打到ES里面供用戶直接去查詢。

三、Flink平臺化

1. 概覽

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

接下來將主要介紹愛奇藝的大數據平臺的構建。上圖不限于Flink，是大數據平臺的整體架構圖。在愛奇藝，存儲層基本是基于Hadoop生態的，比如像HDFS、HBase、Kudu等；計算層，使用YARN，支持MapReduce、Spark、Flink、Hive、Impala等這些引擎；數據開發層，主要是一些自研產品，批處理開發在愛奇藝有工作流開發，數據集成等。實時計算開發，有流計算開發、Streaming SQL、實時分析等平臺工具可以使用。

接下來，我們將簡單介紹愛奇藝實時計算與分析平臺。

2. 實時計算平臺

2.1 流任務平臺

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

流任務平臺是愛奇藝實時計算的底層平臺，支持流任務的提交運行與管理。流任務平臺支持YARN, Mesos, Flink獨立集群等多種資源調度框架；支持Storm, Spark Streaming, Flink, Streaming SQL等計算任務的托管與運行。在功能上，我們支持用戶直接打包程序上傳部署流任務，也支持用戶通過Streaming SQL工具編寫SQL進行流計算開發。為了更好地對計算任務進行管理，流計算平臺提供JAR包、函數管理，任務指標監控，以及資源審計功能。

2.2 Streaming SQL

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

無論對于Spark Streaming還是Flink來說，他們均有一個較好的SQL優化引擎，但均缺乏DDL、DML創建的語義。于是對于業務來說，均需要業務先編程定義Source以及Sink，才可以使用SQL進行后續開發。

因此，愛奇藝自研的Streaming SQL定義了一套DDL和DML語法。其中，我們定義了4種表：
流表：定義了輸入源是什么？具體的解碼方式是什么？系統支持Json的解碼方式，也支持用戶自定義解碼函數。
維度表：主要是靜態表，支持MySQL，主要是用于流表Join的。
臨時表：和Hive的臨時表類似，用戶定義中間過程。
結果表：定義了具體輸出的類型，輸出的源是什么？怎么訪問？這邊的輸出源支持，就是常見的比如Kafka、MySQL、Kudu、ES、Druid、HBase等這樣一些分析型數據庫。

為了更好地支持業務需求，StreamingSQL默認也支持IP庫相關的預定義函數，也支持用戶自定義函數。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

上圖是一個StreamingSQL的應用Case，將P99，P50耗時打印到Console中。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

為了更好地支持業務使用Streaming SQL，StreamingSQL提供Web IDE，提供代碼高亮、關鍵詞提示、語法檢查、代碼調試等功能。

3. 實時分析平臺

實時分析平臺，是愛奇藝基于Druid構建的分鐘級延時的實時分析平臺，支持通過Web向導配置，完成超大規模實時數據多維度的分析，并生成分鐘級延時的可視化報表。支持的功能有，接入實時數據進行OLAP分析；制作實時報警；生產實時數據接口，配置監控報警等。

產品優勢：

全向導配置：從實時數據到報表生成僅需向導配置即可
計算存儲透明：無需管理大數據處理任務與數據存儲
分鐘級低延時: 從數據產生到報表展示只有1分鐘延時
秒級查詢：亞秒級返回分析報表
支持靈活變更需求：業務可靈活更改維度，重新上線即可生效

3.1 用戶向導配置

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

實時分析平臺，將整個分析流程抽象成數據接入，數據處理，模型配置和報表配置4個過程。其中，模型配置完全按照OLAP模型，要求實時數據符合星型模型，存在時間戳、指標、維度等字段。

3.2 數據處理配置

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

在數據處理層，實時分析平臺提供向導配置頁面，支持用戶通過純頁面的方式就可以配置數據處理過程，這主要應對一些簡單場景，針對部分連SQL都不熟悉的小白用戶提供頁面配置方案；初次之外，類似StreamingSQL，實時分析也提供用戶自定義SQL方式定義數據處理過程。

四、Flink改進

在Flink平臺化的時候，我們遇到了幾個Flink的問題，分別對其進行了些改進。

1. 改進 - 優雅恢復checkpoint

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

第一個改進是關于checkpoint的優雅恢復。這個問題的出發點是，業務希望使用Spark Streaming可以通過代碼控制從哪個checkpoint恢復，但對于Flink來講，業務沒法通過代碼控制checkpoint恢復點，需要手動指定檢查點去恢復checkpoint。于是，我們希望Flink可以像Spark Streaming一樣，直接通過代碼方式恢復checkpoint。

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

針對這個問題，我們修改源碼，在Flink任務啟動時，從實際的路徑當中找到他最新的一個checkpoint，直接從那個checkpoint當中恢復，當然這個也是可以讓用戶選的，他如果還想用原生方式恢復也可以，但提供一個選項，它可以支持從最近的checkpoint恢復。

2. 改進 - Kafka Broker HA

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

第二個改進是關于Kafka Broker HA的一個問題，比如像Kafka Broker故障的時候，Kafka還可以正常工作，但Flink程序往往會掛掉。針對這個問題，我們處理了Flink在Kafka Broker退出之后的sockerTimeOutException，支持用戶重試次數配置來解決這個問題。

五、Flink未來工作

最后，介紹一下愛奇藝在Apache Flink的未來工作。目前StreamingSQL還只支持Spark Streaming和Structured Streaming引擎，后續很快會支持Flink引擎，大幅降低業務的Flink開發成本。隨著Flink任務規模不斷變大，我們將重點提升Flink在愛奇藝的成熟度，完善監控報警，增加資源審計流程（目前還僅對Spark Streaming進行資源審計）。另外，我們要研究下Flink 1.6的一些新特性，嘗試下Kafka 2.0，調研Exactly once方案；另外，我們將對Flink新版本進行一些嘗試，推進批流統一。

向AI問一下細節

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

愛奇藝簡介

一、愛奇藝在實時計算方面的演化和遇到的一些挑戰

1. 實時計算在愛奇藝的演化過程

2. 從Spark Streaming到Apache Flink

二、在愛奇藝使用Flink的一些案例

1. 海量數據實時ETL

2. 實時風控

3. 分布式追蹤系統

三、Flink平臺化

1. 概覽

2. 實時計算平臺

2.1 流任務平臺

2.2 Streaming SQL

3. 實時分析平臺

3.1 用戶向導配置

3.2 數據處理配置

四、Flink改進

1. 改進 - 優雅恢復checkpoint

2. 改進 - Kafka Broker HA

五、Flink未來工作

猜你喜歡

亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

從 Spark Streaming 到 Apache Flink : 實時數據流在愛奇藝的演進

愛奇藝簡介

一、愛奇藝在實時計算方面的演化和遇到的一些挑戰

1. 實時計算在愛奇藝的演化過程

2. 從Spark Streaming到Apache Flink

二、在愛奇藝使用Flink的一些案例

1. 海量數據實時ETL

2. 實時風控

3. 分布式追蹤系統

三、Flink平臺化

1. 概覽

2. 實時計算平臺

2.1 流任務平臺

2.2 Streaming SQL

3. 實時分析平臺

3.1 用戶向導配置

3.2 數據處理配置

四、Flink改進

1. 改進 - 優雅恢復checkpoint

2. 改進 - Kafka Broker HA

五、Flink未來工作

猜你喜歡

最新資訊

相關推薦

相關標簽