忙碌的一年即將結(jié)束,春節(jié)長假將至,人們終于可以放松緊繃的神經(jīng)放松幾天了。然而,大多數(shù)企事業(yè)單位的網(wǎng)絡(luò)卻不會因假期停止運轉(zhuǎn),當(dāng)一些小的問題或故障在節(jié)日期間發(fā)生,而IT管理人員又不能第一時間發(fā)現(xiàn)的話,節(jié)假日結(jié)束后,可能就會花費大量工作時間來處理積累的問題,恢復(fù)業(yè)務(wù)系統(tǒng),給年初緊張的工作帶來壓力。如何避免網(wǎng)絡(luò)的“節(jié)后綜合癥”,在保證IT管理人員安心過年的基礎(chǔ)上,讓企業(yè)網(wǎng)絡(luò)業(yè)務(wù)系統(tǒng)在龍年有一個完美的結(jié)尾、在蛇年有一個閃亮的開始呢?銳捷網(wǎng)絡(luò)推出的RIIL(RealtimeIntelligentInfrastructureLibrary)IT綜合業(yè)務(wù)管理平臺,給出了自己的答案。
節(jié)前:做好IT與業(yè)務(wù)系統(tǒng)檢測
現(xiàn)如今,企事業(yè)單位中的CIO、信息中心主任都紛紛提出“主動運維”的口號,其目的在于保護IT系統(tǒng)的正常、有效運行,在事故發(fā)生之前偵測出潛在危機,而類似“春節(jié)”這種長假前,正是主動運維管理發(fā)揮作用的最佳時機。在節(jié)前進行一次徹底、全面的檢查工作必不可少,然而,面對大量的紙質(zhì)表單和電子表格,很多IT運維管理人員很可能沒有時間和耐心看完那些積攢成堆的報表。這就使得看似“主動運維”的大掃除工作,其實背后卻沒有落地工具和效果支撐。
銳捷網(wǎng)絡(luò)認(rèn)為:節(jié)前的這種全面性的檢查工作,應(yīng)屬于預(yù)防性檢查(PM)的一部分。預(yù)防性維護可對網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)運行環(huán)境主動地找出可能會影響系統(tǒng)可用性和性能降低的原因,發(fā)現(xiàn)影響軟硬件故障的潛在因素,以及業(yè)務(wù)系統(tǒng)性能的瓶頸。其實,IT部門完全可以利用支持自動化巡檢的工具替代手工勞動,例如銳捷網(wǎng)絡(luò)的RIILIT綜合業(yè)務(wù)管理平臺可以對以下內(nèi)容進行自動檢測,如:機房場地環(huán)境、硬件狀態(tài)檢查、系統(tǒng)日志、存儲、系統(tǒng)備份及安全狀態(tài)檢測等等。接下來,IT部門就可以利用這些數(shù)據(jù)得到系統(tǒng)總體性能評估,在節(jié)前做好調(diào)整和優(yōu)化工作。
節(jié)中:預(yù)警管理與避免告警“洪災(zāi)”
節(jié)日期間IT運維人員也許會輪班、值班,但如果沒有一個監(jiān)控能力支撐到位的運維平臺,由于沒有業(yè)務(wù)人員再打電話來報修,一旦網(wǎng)絡(luò)環(huán)境出現(xiàn)異常,這個“值班”也就成為了“擺設(shè)”,很有可能在節(jié)后出現(xiàn)業(yè)務(wù)癱瘓故障的情況。因此,IT運維人員必須在第一時間就能知道業(yè)務(wù)系統(tǒng)異常的信息,以便值班人員通過智能化告警處理中心提示的內(nèi)置故障根源分析做出處理,恢復(fù)業(yè)務(wù)系統(tǒng)正常運行。并且,根據(jù)警告的級別,RIIL系統(tǒng)還可以將值班人員不能處理的故障事件,自動派給相應(yīng)的高級IT管理人員進行分析處理。
針對告警管理,RIIL可幫助CIO快速探明IT基礎(chǔ)架構(gòu)的異常事件,采用6級分類區(qū)別事件不同的嚴(yán)重等級,精細化的規(guī)則定義實現(xiàn)了智能解析,確保事件、告警的準(zhǔn)確性、及時性。同時,在第一時間便可通過郵件、短信等多種告警方式使相關(guān)技術(shù)人員及時獲知,迅速做出響應(yīng),在對業(yè)務(wù)產(chǎn)生致命影響前采取措施、有效解決,從而保障業(yè)務(wù)的連續(xù)運行。并且,RIIL可以將事件與告警分離,針對節(jié)假日自定義告警的規(guī)則,過濾無用信息,避免告警“洪災(zāi)”在春節(jié)期間打亂IT部門的休假安排。
節(jié)后:業(yè)務(wù)健康指數(shù)避免“節(jié)后綜合癥”
春節(jié)過后,很多單位很快需要進入正常的工作狀態(tài),作為網(wǎng)絡(luò)運維管理員,假期結(jié)束后上班的首要任務(wù)就是要馬上檢測網(wǎng)絡(luò)運行是否正常,以免給企業(yè)員工的工作帶來諸多不便。我們知道,現(xiàn)在員工工作的“節(jié)后綜合癥”十分常見:瘋狂購物、外出旅游、縱情娛樂、親友聚餐等過后,剩下的是身心疲勞,腸胃不適,不想上班。這種現(xiàn)象一般在節(jié)后一周左右才會慢慢恢復(fù),但業(yè)務(wù)網(wǎng)絡(luò)系統(tǒng)顯然容不得這樣“養(yǎng)病”的時間。
為了避免節(jié)后無法及時了解每個運維對象和業(yè)務(wù)系統(tǒng)潛在故障情況的發(fā)生,RIIL平臺中首創(chuàng)了“IT健康指數(shù)”。它是一條類似股票大盤指數(shù)的曲線,如果出現(xiàn)下行趨勢,則說明IT系統(tǒng)在春節(jié)這段時間運行狀況出現(xiàn)了異常,需要警惕。此時,運維人員就可以根據(jù)IT健康指數(shù)相關(guān)聯(lián)的業(yè)務(wù)“雷達”,尋找當(dāng)前健康指數(shù)下行是由于哪一個業(yè)務(wù)系統(tǒng)的健康發(fā)生變化造成的,同時可以追溯到故障源頭,明確是在長假的哪個時間點發(fā)生了問題。
伴隨著IT技術(shù)的迅猛發(fā)展,以及企業(yè)核心業(yè)務(wù)的集成程度更加緊密,如何把這些IT系統(tǒng)在統(tǒng)一的平臺上實現(xiàn)整合、監(jiān)管和優(yōu)化,發(fā)揮業(yè)務(wù)系統(tǒng)效能最大化,進而達到最優(yōu)化管理,已成為了IT部門的首要任務(wù)。因此,不論是春節(jié)、國慶,或是教育行業(yè)中的寒暑假,RIIL都會是CIO最得力的“值班人員”,避免網(wǎng)絡(luò)和員工一起“放假”,造成業(yè)務(wù)運營的潛在風(fēng)險。