您好,登錄后才能下訂單哦!
事態管理(Event Management),原來稱作事件管理,是ITIL運營管理體系中的一個主要流程之一。所謂Event(事態)是指對于配置項或IT服務有重要意義的狀態變化。比如IT系統中的服務器。
從啟動狀態變為關機狀態、一個應用服務狀態從Up到down的狀態變化等等。Event一詞還用于表示任何 IT 服務、配置項或監視工具創建通知。事態通常需要 IT 運營人員采取行動,并且通常導致事件記入日志。在ITIL V4中事態管理已經更新為監控與事態管理。
高效的IT服務運營有賴于對于基礎設施、操作系統、應用系統等IT系統的狀態的及時了解,并發現較于正常以及預期工作的任何偏差。以便盡快采取措施修正系統的偏差,這一功能需要通過出色的監控系統來實現。
人們往往會混淆監控和事態管理,兩者雖然密切相關,但是還是有著本質的區別。監控通常以高度自動化的方式進行,并可以主動或被動地進行采集被監控項的狀態。事態管理則側重于記錄和管理由組織定義為事態的狀態監視和狀態變更。強調對于運營管理有意義的狀態變化并進行管理,確定事態的重要性、以及識別和啟動正確的操作以管理它們。
監控對于事態管理是必要的,但不是所有監控都會導致檢測到事態,并非所有事態都具有相同的意義或需要相同的響應。事態可以分級、通常可以分為信息(Information)、告警(Warning)、例外(Exception)。信息在識別時不需要采取行動,但可以在事后的分析過程中提供數據支撐以采取措施改進服務。告警通常在達到一定的條件下觸發,使團隊能夠在業務發生實際負面影響之前采取措施應對。而例外則表明已經實際發生了違反預定義規范的事態,異常事態一定要采取措施。
通過監控工具或自動化監控對象的做法可能會產生大量數據,但如果沒有關于如何限制,過濾和使用此數據的明確政策和策略,那么它將毫無價值。
JITStack集合主流開源監控平臺并結合在監控領域的實施經驗,為客戶組織打造縱向層次化、橫向大規模可擴展的靈活、成熟、可擴展的可視化統一監控解決方案。方案以Zabbix、Prometheus、ELK為開源監控平臺,Grafana技術框架為開源可視化平臺,結合Ansible開源自動化技術,打造縱向可以監控從硬件基礎設施、系統、應用狀態、業務數據,虛擬化環境、容器,日志等全方位信息系統以及對監控數據的分析、展示;橫向可以實現從監控小規模幾臺到幾十臺的中小規模的集中式高可用部署,到監控幾千臺設備的分布式監控系統部署。
客戶組織利用JITStack監控系統平臺實行監控和事態管理流程中的重要活動:
定義監控項:確定哪些配置項,設備、系統、服務及其組件并確定監控策略。
實施和維護監控:利用設備、系統自身的監控功能或者使用專用的監控工具可實現監控,不同的系統產生的大量監控數據,各種事件分布在不同的系統中,如主機、網絡設備的本身往往都有不同的監控系統,其監控信息、事態告警都分布在各自的監控系統中,通過JITStack統一監控系統將各種監數據匯集到統一監控系統、有利于簡化事態管理復雜性,提高運維效率。
修正降噪:由于系統之間的耦合,同一個故障可能會導致各個不同的層級關聯系統產生一系列相關的事態信息、告警和例外,使運營團隊淹沒于大量告警之中,增加了排查處理問題的難度。JITStack通過修正降噪方案,將相同原因的事態告警合并,只顯示有限數量的事態通知,幫助運營團隊專注于處理有意義的告警通知,提高效率。
建立維護閾值:確定哪些狀態變化將被視為事態、并選擇標準對事態進行分級。JITStack監控系統默認支持6級安全級別定義,滿足更精細、靈活的響應操作管理。
JITStack監控系統支持分級層次多途徑通知,結合客戶組織實際,建立和維護應如何處理每級事態的政策以及適當的管理,在JITStack監控平臺實施定義的閾值,標準和策略所需流程,并結合自動化工具實現運維管理的自動化。
利用JITStack監控平臺進行監控與事態管理對于業務和運營管理價值:
其重要之處在于監控系統結合事態事態管理流程提供了早期發現故障的機制,在實際服務中斷發生之前,就可以檢測到故障并分配給相關團隊采取措施。當整合服務管理的其他流程時,如故障管理、問題管理時,事態管理能夠利用監控信息作為輸入提供事態基礎數據,顯示出狀態變化、異常現象,使相關人員或團隊能夠盡早響應,提高響應效率,從而使業務受益于整體運維效率的提升。監控與事態管理為自動化操作奠定了基石,運維自動化可以提高運營效率,并使昂貴的人力資源解放出來投入到更具創新價值的工作中去。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。