您好,登錄后才能下訂單哦!
這篇文章給大家介紹MONGO DB too many mongodb page_faults 報錯排查step by step的示例分析,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
早上運維的同學, morning call,說zabbix的 MONGO 監控報警,圖片傳給我,報的錯誤是 too many mongodb page_faults.
本來 page_faults 引起的根本原因就是瞬時MONGO 從磁盤讀取了大量的數據,引起page_faults。
這時候有的MONGO DBA 會馬上反應,看看有沒有沒有全COLLECION的掃描,沒有良好的索引,大量的SCAN ,會造成這個問題。
但這個問題奇葩的地方就在于,這個報錯的 PAGE_FAULTS機器,并沒有查詢(并非primary 庫),既然么有查詢,怎么來的page_faults。
官方的解釋截圖
馬上去確認一下,到底這個剛運行的MONGO 的standy庫的 page_faults 到底是不是有問題。
下面是出現問題的機器,(別笑新機器當然沒有那么多page_faults)
,對比主機的 page_faults
果然,這個問題機器的page_faults果然多了。
另外看看內存的狀況,果不其然,已經開始使用SWAP了
通過 mongostat 來查看,系統并沒有什么不正常
在查看日志
可以看到,日志已經指向 advisoryHostFQDNS,并且通過日志,發現一直有這個錯誤,并且執行一次命令要80秒。
經過查詢,可能原因有幾個,因為這個advisoryHostFQDNs 是集群中每臺MONGODB 機器的域名解析,這里查詢這個信息是從 OPS MANANGER 而來的,說明我們這邊可能在解析域名上有問題。
這里解決問題的方法:在每臺機器,及OPS MANANGE 上 HOSTS 上填寫所有集群MONGODB的機器名,而不在通過DNS 來解析,看看能不能解決上述的問題。
關于MONGO DB too many mongodb page_faults 報錯排查step by step的示例分析就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。