您好,登錄后才能下訂單哦!
TiDB用什么保證備份的一致性,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
背景
作為一名MySQL DBA,就應該了解MySQL備份無論是邏輯備份還是物理備份,都會使用FLUSH TABLES WITH READ LOCK(下面簡稱FTWRL)鎖來保證數據庫備份的一致性。
描述FTWRL鎖對一致性的影響
先拿,MySQL邏輯備份MySQLDump舉例。
MySQLDump,為了保證備份一致性,需要添加2個參數
--single-transaction --master-data=2 。
在開啟--single-transaction后,MySQLDump的備份流程大概就是,在MySQL中會執行如下操作。
1、刷新表flush tables 用來防止DDL操作。
2、執行FTWRL鎖,這個時候整個數據庫整體被鎖住,讓數據庫處于一個一致性的狀態。
3、設置當前session(回話)事務的隔離級別為RR。
4、記錄當前的MySQLbinlog的位置,或者GTID信息。
5、解鎖。#從加鎖到解鎖執行速度會很快,前提是沒有鎖沖突,如果有鎖沖突,就會到鎖等待的一個狀態。
物理備份xtrabackup,物理備份執行FTWRL鎖的時間相對較長,下面來看一下xtrabackup對FTWRL鎖的流程。
執行FTWRL鎖。
拷貝frm、MYD、MYI、etc拷貝。
等待redo的拷貝完成。
記錄當前的MySQLbinlog的位置,或者GTID信息。
解鎖。
xtrabackup加鎖是為了保證在數據庫中如果有MyiSAM表,盡量保證MyiSAM表的備份一致性。
#之前有個同學說。物理備份加FTWRL鎖會比邏輯備份加鎖時間短,這個結論其實是錯誤的。物理備份加鎖的時間完全取決一下當前數據庫里有沒有MyiSAM表,MyiSAM表的大小。
TiDB是用什么保證數據庫一致性的
先說TiDB官方推薦的邏輯備份mydumper, 一開始我以為mydumper也是用FTWRL鎖來保證備份的一致性。結果我今天在看文檔的時候發現,這個結論是錯誤的。
官方對mydumper進行了優化和修改。先看一下官方的描述。下面內容來自TiDB官方文檔。
1、對于 TiDB 可以設置 tidb_snapshot 的值指定備份數據的時間點,從而保證備份的一致性,而不是通過 FLUSH TABLES WITH READ LOCK 來保證備份一致性。
2、使用 TiDB 的隱藏列 _tidb_rowid 優化了單表內數據的并發導出性能。
大家先記住 TiDB 是通過 tidb_snapshot,來實現備份,而不是FTWRL鎖來保證。這么設計會有什么問題?能保證數據備份的一致性嗎?
要解答這個問題,要簡單說一下TiDB的架構設計。
TiDB的存儲節點是TiKV,下面主要針對TiKV來說。先把TiKV,理解為很大的一個Key-value的存儲器。
(圖1選自TiDB官方文檔)
這塊跟備份其實沒有什么關系,先讓大家大概了解一下TiKV存什么。
下面的內容就跟備份有關系了,TiDB 的MVCC(多版本控制器)實現是在TiKV中。TiKV中加了MVCC,key和value這樣的。
我認為version就是TSO(全局唯一遞增時間戳),我是通過TiDB二階段提交中發現的。
如果不是的話version的版本信息就會存在PD里面,這樣設計的話會增加PD的壓力,感覺不現實。
針對上面描述有一個小的結論TiKV里面會存儲歷史key的信息。
下面還是來一個問答來解答上面的疑問。
問:TiDB是通過什么來保證數據的一致性的?
答:是基于TiKV里面的MVCC來保證的,根據當前的的時間戳信息,來下發命令
sql="SET SESSION tidb_snapshot = '415599012634951683'"。
這個session就會讀到這個時間點的歷史版本的數據。
下一步的操作,只要把所有的表和里面的數據掃出來就可以了。
問:通過MVCC實現的備份,能達到一致性嗎?(因為沒有鎖)
答:是可以的,大家可以看一下我之前寫的《淺析TiDB二階段提交》那篇文章中里面有寫到,只有事務成功提交才能會寫入到TiKV中,才會有TSO(全局唯一遞增時間戳)。也就是TiKV中里面的key都是成功提交的。
那么在備份的過程中提交的成功的事務是不會被掃到的。
因為備份過程中提交的事務的tso(全局唯一遞增時間戳)會大于當前的備份發起的tso(全局唯一遞增時間戳)。
問: 使用了MVCC的備份方式,會有哪些問題?
答:我認為最大的問題就是 在備份的過程中老的key被GC(垃圾清理)掉,解決這個問題的最好的辦法,可以把GC(垃圾清理)時間設置的長一點。
UPDATE mysql.tidb SET VARIABLE_VALUE = '800h' WHERE VARIABLE_NAME = 'tikv_gc_life_time';
可以設置為800h(根據時間情況而定),備份結束后要修改回來,否則會浪費存儲空間。
通過上面的描述,大家應該會了解到TiDB對備份的一致性處理的相關細節。
在TiDB4.0的分布式備份恢復工具br,在這塊處理是類似的。也是利用MVCC的方式來實現的。
最后在安利一下TiDB4.0的備份工具br。備份的速度快,消耗資源相對較低。下面的案例僅供參考大家感興趣的話 我可以做一下詳細的測試,留言刷起來。
機器描述:三臺騰訊云4C8G SSD50G,Sysbench 壓力10張表每張表1千萬條數據。
整體大概5分鐘左右,brlog里面會記錄相關信息。
開始時間16:44:27.009 結束時間16:49:40.395
相同環境我用mydumper測,mydumper運行在tidb的節點上。
mydumper是4個線程數(默認線程數)
他備份的過程中把tidb壓的OOM了。
#可以用-r參數控制每個并發處理的數據量來避免。
大概是我的機器配置低,而且mydumper和tidb-server是同一臺機器。
關于TiDB用什么保證備份的一致性問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。