亚洲激情专区-91九色丨porny丨老师-久久久久久久女国产乱让韩-国产精品午夜小视频观看

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

發布時間:2020-04-08 13:49:58 來源:網絡 閱讀:270 作者:數瀾 欄目:大數據

這篇文章主要從數據治理的基礎和核心之一:元數據入手,從以下幾個角度展開具體講解:

  • 元數據概念

  • 元數據的分布和采集

  • 元數據的一些實際應用場景

一、元數據到底是個啥?

如果我說:元數據(Meta Data),就是描述數據的數據。沒有技術背景加持的路人粉看到這句「繞口令」,內心可能會浮現這樣的想法:

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!cdn.xitu.io/2019/7/31/16c45d87f2cba3c5?w=800&h=682&f=webp&s=20536">

簡單點,其實元數據相當于數據的戶口本

戶口本是什么?它除了包含個人姓名、年齡、性別、×××號碼等各種基本描述信息外,還有這個人和家人的血緣關系,比如說父子,兄妹等等。所有的這些信息加起來,構成對這個人的全面描述,也可以稱之為這個人的元數據。

同樣的,如果我們要描述清楚一個實際的數據,以某張表為例,我們需要知道表名、表別名、表的所有者、數據存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其他表之間的關系等等。所有的這些信息加起來,就是這張表的元數據。這么一類比,我們對元數據的概念可能就清楚很多了:元數據是數據的戶口本

二、元數據管理

是數據治理的核心和基礎

如果讓你帶兵打仗,現在你必須要掌握的信息是什么?沒錯,一張戰場的地圖必不可少!而元數據在數據治理當中,就相當于所有數據的地圖。

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

在這張關于數據的地圖中,我們可以知道:

  • 我們有哪些數據?

  • 數據分布在哪里?

  • 這些數據分別是什么類型?

  • 數據之間有什么關系?

  • 哪些數據經常被引用?哪些數據無人光顧?

    ……

所以,如果我們做數據治理,卻沒有掌握這張地圖,就猶如瞎子摸象。后續的文章中我們要講到的數據資產管理,知識圖譜,其實大部分也是建立在元數據之上的。所以我們說:元數據是一個組織內的數據地圖,它是數據治理的核心和基礎

三、元模型又是誰?

元模型(Meta Model),是描述元數據的數據。它與元數據、數據之間的關系,可以用下面這張圖來描述。

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

對于元模型的概念,我們不做深入的討論。我們只需要知道下面這些:元數據本身的數據結構也是需要被定義和規范的,定義和規范元數據的就是元模型,國際上元模型的標準是 CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數據管理工具,需要支持 CWM 標準

以下內容理解難度升級,請各位技術小白謹慎閱讀

如有不懂,蔣老師后臺單獨輔導!

四、元數據從哪來?

在大數據平臺中,元數據貫穿大數據平臺數據流動的全過程,主要包括數據源元數據、數據加工處理過程元數據、數據主題庫專題庫元數據、服務層元數據、應用層元數據等。下圖以一個數據中心為例,展示了元數據的分布范圍:

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

業內通常把元數據分為以下類型:

  • 技術元數據:庫表結構、字段約束、數據模型、ETL 程序、SQL 程序等。

  • 業務元數據:業務指標、業務代碼、業務術語等。

  • 管理元數據:數據所有者、數據質量定責、數據安全等級等。

元數據采集是指獲取數據生命周期中的元數據,對元數據進行組織,然后將元數據寫入數據庫中的過程。使用包括數據庫直連、接口、日志文件等技術手段,對結構化數據的數據字典、非結構化數據的元數據信息、業務指標、代碼、數據加工過程等元數據信息進行自動化和手動采集。元數據采集完成后,被組織成符合 CWM 模型的結構,存儲在關系型數據庫中。

五、有了元數據,我們能做些什么?

先看一張元數據管理的整體功能架構圖,有了元數據,我們能做些什么,從這張圖里一目了然:

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!
(如果你沒看懂,請來評論區告訴我)

① 元數據查看

一般是以樹形結構組織元數據,按不同類型對元數據進行瀏覽和檢索。如我們可以瀏覽表的結構、字段信息、數據模型、指標信息等。通過合理的權限分配,元數據查看可以大大提升信息在組織內的共享。

② 數據血緣和影響性分析

數據血緣和影響性分析主要解決「數據之間有什么關系」的問題。因其重要價值,有的廠商會從元數據管理中單獨提取出來,作為一個獨立的重要功能。但是考慮到數據血緣和影響性分析其實是來自于元數據信息,所以還是放在元數據管理中來描述。

血緣分析指的是獲取到數據的血緣關系,以歷史事實的方式記錄數據的來源,處理過程等。以某張表的血緣關系為例,血緣分析展示如下信息:

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

數據血緣分析對于用戶具有重要的價值,如:當在數據分析中發現問題數據的時候,可以依賴血緣關系,追根溯源,快速地定位到問題數據的來源和加工流程,減少分析的時間和難度

數據血緣分析的典型應用場景:某業務人員發現「月度營銷分析」報表數據存在質量問題,于是向 IT 部門提出異議,技術人員通過元數據血緣分析發現「月度營銷分析」報表受到上游 FDM 層四張不同的數據表的影響,從而快速定位問題的源頭,低成本地解決問題。

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

除了血緣分析之外,還有一種影響性分析,它能分析出數據的下游流向。當系統進行升級改造的時候,如果修改了數據結構、ETL 程序等元數據信息,依賴數據的影響性分析,可以快速定位出元數據修改會影響到哪些下游系統,從而減少系統升級改造帶來的風險。從上面的描述可以知道:數據影響性分析和血緣分析正好相反,血緣分析指向數據的上游來源,影響性分析指向數據的下游

影響性分析的典型應用場景:某機構因業務系統升級,在“FINAL_ZENT ”表中修改了字段:TRADE_ACCORD 長度由 8 修改為 64,需要分析本次升級對后續相關系統的影響。對元數據“FINAL_ZENT”進行影響性分析,發現對下游 DW 層相關的表和 ETL 程序都有影響,IT 部門定位到影響之后,及時修改下游的相應程序和表結構,避免了問題的發生。由此可見,數據的影響性分析有利于快速鎖定元數據變更帶來的影響,將可能發生的問題提前消滅在萌芽之中。

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!
③ 數據冷熱度分析

冷熱度分析主要是對數據表的被使用情況進行統計,如:表與ETL 程序、表與分析應用、表與其他表的關系情況等,從訪問頻次和業務需求角度出發,進行數據冷熱度分析,用圖表的方式,展現表的重要性指數。

數據的冷熱度分析對于用戶有巨大的價值,典型應用場景:我們觀察到某些數據資源處于長期閑置,沒有被任何應用調用,也沒有別的程序去使用的狀態,這時候,用戶就可以參考數據的冷熱度報告,結合人工分析,對冷熱度不同的數據做分層存儲,以更好地利用 HDFS 資源,或者評估是否對失去價值的這部分數據做下線處理,以節省數據存儲空間。

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

④ 數據資產地圖

通過對元數據的加工,可以形成數據資產地圖等應用。數據資產地圖一般用于在宏觀層面組織信息,以全局視角對信息進行歸并、整理,展現數據量、數據變化情況、數據存儲情況、整體數據質量等信息,為數據管理部門和決策者提供參考

⑤ 元數據管理的其他應用

元數據管理中還有其他一些重要功能,如:元數據變更管理,對元數據的變更歷史進行查詢,對變更前后的版本進行比對等等;元數據對比分析,對相似的元數據進行比對;元數據統計分析,用于統計各類元數據的數量,如各類數據的種類,數量等,方便用戶掌握元數據的匯總信息。諸如此類的應用,不一一列舉。

六、做個總結

「數據治理那點事」系列之二:手握數據「戶口本」,數據治理肯定穩!

作者簡介:蔣珍波, 6年+大數據治理經驗,擅長為客戶提供科學合理的數據治理解決方案。曾先后供職于東南融通、軟通動力、普元信息等公司,負責過數據倉庫建設、BI、大數據平臺、數據治理等售前咨詢等工作,有政府、電力、制造業等行業經驗。目前在數瀾科技擔任大數據平臺售前咨詢工作。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

潜江市| 栾川县| 桂林市| 土默特右旗| 湖北省| 澄江县| 宝丰县| 泰顺县| 嫩江县| 贡觉县| 襄樊市| 乌苏市| 恩平市| 济宁市| 沁阳市| 潼关县| 广宗县| 蒙山县| 吉木萨尔县| 长汀县| 美姑县| 会泽县| 行唐县| 武宁县| 从化市| 新邵县| 云和县| 和龙市| 闽清县| 四平市| 阿坝| 云南省| 阳江市| 镇远县| 湄潭县| 滁州市| 青河县| 理塘县| 清徐县| 什邡市| 盘山县|