數據中心監控管理系統設計(之一)
數據中心監控管理系統設計
3.1引言
數據中心經歷了四個功能階段的發展和演進,從早期的“數據存儲中心”階段,經過“數據處理中心”和“數據應用中心”兩個階段,如今已經進入“數據運營服務中心”階段。現階段的數據中心已經成為絕大部分企業或組織滿足基本業務運營和實現業務戰略的不可或缺的一部分。簡單的說,無論你是什么行業,傳統制造業,還是新興服務業,你的數據中心已經緊緊地和你的主業捆綁在一起了。數據中心的運行狀況、規劃發展直接影響著企業或組織的業務開發和業務運營。
依據基礎設施在數據中心的邏輯位置(如圖1),數據中心的基礎設施的運行狀態也是反映數據中心運行狀況的關鍵面之一。國內外數據中心建設規范都要求對數據中心基礎設施進行監控;目的是確保數據中心基礎設施運行狀態滿足數據中心所支撐和服務的各種應用系統正常運營和業務連續。如果由于數據中心基礎設施故障造成數據中心發生癱瘓,將造成機構業務停頓。近幾年,銀行、保險、證券、民航等行業相繼出現了一些數據中心故障,造成了很大的社會影響和經濟損失。
圖1:基礎實施在數據中心架構中的定位
數據中心基礎設施監控管理系統是一個以計算機軟件技術為基礎,利用網絡技術、數據庫技術、通信技術、嵌入式技術、工業自動控制技術、新型傳感技術等構成的專業化、自動化、智能化的綜合監控管理系統。該系統可實時收集各種被監控設備的運行參數、工作狀態及告警信息、能對智能型和非智能型的設備進行監控,準確的實現遙信、遙調、遙控及遙調等功能,確保數據中心各種基礎設施運行正常和快速恢復。另外,在設施監控的基礎上,能夠為IT服務管理提供基礎數據和流程支持。
本文主要描述一般數據中心基礎設施監控管理系統的建設目標、設計原則、監控范圍、軟硬件架構、系統組成和功能,以及監控管理系統關鍵技術等。
3.2設計目標
數據中心基礎設施的監控工作是數據中心運維管理工作的一個既基礎又核心的內容,這是因為一方面基礎設施為數據中心運維提供基本的和底層的物理環境資源保障,另一方面,對基礎設施運行的監控數據和監控信息將成為數據中心服務管理(ITSM)的某些流程的輸入(如:ITIL事件管理、容量管理等)。因此,站在IT服務的高度,對基礎設施監控系統進行設計是非常必要的。
(一)設計目標
設計目標來源于對用戶的戰略性需求和當前使用需求的平衡。不同的客戶在設計目標上存在差異。確定設計目標,與其說是一個技術問題,不如說是一個管理決策問題。但是一般來講,首先應該緊緊抓住用戶面臨的問題和迫切需求,確立它的最低建設(設計)目標。
根據我的經驗,以下幾點應該作為基礎設施監控管理系統的最低設計目標:
(1) 能夠對所有數據中心機房的基礎設施提供實時的狀態監測
要確保監控覆蓋范圍滿足數據中心管理的要求,盡可能地全覆蓋對所有支持企業或組織業務連續運行的動力、環境等系統的在線實時監測。
(2) 最大可能地降低人工監控和管理引入漏檢和誤報的風險
最好在監控系統上線后,人工現場監測操作從常態工作轉變成非常態工作,例如:只是人工(維護人員或設備廠商)定期(月/季度)現場巡(抽)檢。同時,監控事件以自動化的方式通知(分派),杜絕人工誤報和延誤處理。
(3) 提供一個監測-控制(管控)-再監測的閉環管理
監測不是目的,也不是監控系統的運行終點。當被監控對象處于非正常狀態時,干預控制(人工或系統聯動)是必須的。同時,干預控制的有效性和結果,也必須通過再監測來判斷。這是一個閉環管理的過程,系統應該滿足。例如:空調系統的監控。
(4) 相對提高運維團隊的工作效率
數據中心的人力資源配備在絕大多數企業或組織從來都是“捉襟見肘”的。因為他“歷史上”不是一線業務部門,不直接創造企業價值和利潤。所以,常常面臨“事多人少”的工作局面。采用集中監控管理、遠程監控管理、無人值守、自動巡檢等技術,可以相對地提高基礎設施維護人員的工作效率。這一點是最得人心的項目收益。
(5) 能夠記錄被監控對象的歷史運行數據
歷史數據的價值之一就像病人的既往病例,它為新的問題解決提供參考。另外一方面,它可以“還原真相”,是系統安全審計的基本要求。這個設計目標將會帶出大數據存儲、處理與訪問的問題。
(6) 定義和報告被監控對象乃至整個數據中心基礎設施的運行狀態指標和健康指標
數據中心的基礎設施包括的子系統多,設備種類多,如果不能事先定義好(或者是可定義的)監控指標和健康指標,那么,維護人員一定會被淹沒在廢數據的海洋,無法準確判斷基礎實施的整體運行狀態。
在數據中心基礎設施的生命周期里,基礎設施的健康指標應該被定義(比如:平均設備使用年限、平均設備故障覆蓋率等等),以此來量化衡量基礎設施的剩余使用能力。
(7) 最大可能地預測被監控對象的運行趨勢,預防問題發生
大家可以想見,一旦數據中心基礎設施出現重大故障,企業或組織的業務必然馬上受到影響甚至中斷,損失即刻發生。(2011年國內某保險公司因為供電系統問題,導致業務停止,損失約3個億)。所以,監控系統如果能夠根據被監控對象的歷史運行情況,推演問題趨勢,就可以提前采取措施排除問題隱患。從這個意義上看,最有價值的監控系統就是可以預防問題發生的監控系統。
(8) 提供基礎設施突發問題的預案
現實中問題總會發生,哪怕等上幾年!所以,為你的監控系統買個“保險”,開發各種問題處理預案。
(9) 監控系統自身無障礙運行
這個不說了,就像交通電子眼一旦壞了,怎么知道誰闖了紅燈?
另外,近年來,隨著數據中心行業的蓬勃發展和面向IT 服務的功能轉變,機房數量劇增、規模擴大、結構更加復雜、監控業務增長,新的監控管理需求不斷出現,因此,新一代監控管理系統還應該把以下幾點作為設計目標:
(10) 滿足數據中心快速擴容的要求
(11) 滿足跨區域聯網監控的要求
(12) 滿足分級分區域管理的要求
(13) 滿足異地災備的要求
(14) 能夠與數據中心其他信息系統集成
與數據中心資產管理系統的集成,或者與ITIL框架下CMDB、知識管理系統的集成。與ITIL框架下服務運維模塊中的問題管理的集成。與數據中心統一的身份認證系統集成。等等。
(15) 能夠對數據中心基礎設施進行科學評價
在對基礎設施監控的基礎上,進一步對其等級和持續可用性進行評價,作為數據中心基礎設施維護的依據。比如:數據中心能耗評估。通過監控系統采集的用電量計算電能使用效率PUE(Power Usage Effectiveness)。再比如:成本平均。