您好,登錄后才能下訂單哦!
這篇文章主要講解了“done文件的數據監控問題有哪些”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“done文件的數據監控問題有哪些”吧!
除了像Alibaba
的 Dataworks 外,很難有另外的公司能夠把數據調度,數據監控,數據血緣,元數據管理等作為一體化的平臺了,包括我司在內的一些廠,往往把這些建設獨立開來,由不同的團隊負責,其中數據平臺調度功能是絕大多數公司都有的基礎平臺,但是調度的功能程度就各不同了,下面的問題當作拋磚引玉,指出在生產環境中常遇到的問題,如果后續有產出,后面盡量開源一些代碼出來,貼到本博客最后面。
監控從大的層面來說有兩種,一種是監控用來攔截的,即有依賴的,一種只是用來報警和分析的。
由于依賴接入源較多,以下問題常有發生:
一般處理過程:花費時間30m+ 處理-延時問題→ 去易創上找依賴圖,確認是哪個上游產出表沒有產出->復制表名->去數據地圖里面找負責人->一般會拉群跟進-->等處理完-->同步或者不同步/關注方→同步產出好了
處理過程: 需要對最終的產出標簽的分布等進行質量監控,暫時沒有->如果發現以后->復制表名->去數據地圖里面找負責人->一般會拉群跟進-->等處理完-->同步或者不同步/關注方→回溯數據->通知使用方數據問題
花費時間60m +數據質量問題 (條數,時間戳)→ 一般只有等標簽使用方發現才能意識到->問題復現->復制表名->去數據地圖里面找負責人->一般會拉群跟進-->等處理完→同步或者不同步/關注方→同步產出好了
有一些例行的,必須在每天xx點產出的數據,如果沒有生成好,就要人為去挨個找上游負責人去找問題,與1.1.3中的問題類似,都是要手動找上游。
基于以上問題,我們發現這些問題,都是監控不完善,完善的監控應該是怎么樣的呢?
在已知問題內,只要給表或者數據的標簽分布加了監控,那么當出現問題時候,可以自動通知到數據使用方,數據發布方,當問題拋出來給某人以后,他可以選擇,將此次報警置為處理中,后續在xx時間內處理好,如果處理不好繼續報警,但是報警范圍可能更大,比如給負責人經理電話,郵件,短信,拉群艾特等。這樣有另外一個好處是數據的sla在一定程度上保證了,可以過后來查問題,或者在未來的“某些特殊場合”使用到。
需求如上,那么設計
監控獨立于調度系統,與調度系統唯一的交互是done文件,調度在done文件產出后才繼續執行。
1.2.0 為什么基于done文件呢?
任務依賴,對于任務依賴來說,為了對數據源的質量檢測,就要對每個任務進行配置任務檢測依賴,會有兩個問題,其一是任務檢測腳本會更分散,其二,檢測邏輯很多是類似的,也會造成腳本冗余
表依賴,檢測位置是表的分區,那么當數據質量檢測通過后,生成一個表的分區,最終就是類似 dt=xxxx/rule=check_t1_count.done 類似這樣 通過add partition 來添加
文件依賴,跟表依賴類似之處就是生成一個done文件,區別之處在于可以直接通過服務來調用生成done,較方便所以選文件依賴
1.2.1 done文件由一個唯一的表名+任務id.done組成
1.2.2 單點報警 + 多層處理報警,如果A表怎么樣,B表怎么樣,就報警給誰,具體有產出延時,失敗報警
感謝各位的閱讀,以上就是“done文件的數據監控問題有哪些”的內容了,經過本文的學習后,相信大家對done文件的數據監控問題有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。