您好,登錄后才能下訂單哦!
最近看到一篇很好資料,里面三言兩語配上幾個圖就把列式存儲(Column-based Storage)講明白了,牛啊!最喜歡的就是這種淺顯易懂就把背景知識講得明明白白,而不是長篇大論的講概念。
列式存儲(Columnar or column-based)是相對于傳統關系型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好,直接抄原文了):
Row-based storage stores atable in a sequence of rows.
Column-based storage storesa table in a sequence of columns.
下面來看一個例子:
從上圖可以很清楚地看到,行式存儲下一張表的數據都是放在一起的,但列式存儲下都被分開保存了。所以它們就有了如下這些優缺點:
行式存儲 | 列式存儲 | |
優點 | 數據被保存在一起 INSERT/UPDATE容易 | 查詢時只有涉及到的列會被讀取 投影(projection)很高效 任何列都能作為索引 |
缺點 | 選擇(Selection)時即使只涉及某幾列,所有數據也都會被讀取 | 選擇完成時,被選擇的列要重新組裝 INSERT/UPDATE比較麻煩 |
注:關系型數據庫理論回顧 - 選擇(Selection)和投影(Projection)
剛才其實跳過了資料里提到的另一種技術:通過字典表壓縮數據。為了方面后面的講解,這部分也順帶提一下了。
下面中才是那張表本來的樣子。經過字典表進行數據壓縮后,表中的字符串才都變成數字了。正因為每個字符串在字典表里只出現一次了,所以達到了壓縮的目的(有點像規范化和非規范化Normalize和Denomalize)
下面就是最牛的圖了,通過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優點:
關鍵步驟如下:
1. 去字典表里找到字符串對應數字(只進行一次字符串比較)。
2. 用數字去列表里匹配,匹配上的位置設為1。
3. 把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。
4. 使用這個下標組裝出最終的結果集。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。