現(xiàn)代的信息中心已成為人們?nèi)粘I钪胁豢扇鄙俚牟糠?,因此信息中心機房設備的運行正常與否就非常關鍵。而基礎設施的可靠運行就是關鍵的關鍵,當然基礎設施中供電系統(tǒng)是第一位的,有不少信息中心機房由于供電系統(tǒng)的故障而導致整個中心癱瘓。這就給運維是否到位提出了嚴格要求。

一、運維在機房中的地位
在數(shù)據(jù)中心生命周期中,數(shù)據(jù)中心運維管理是數(shù)據(jù)中心生命周期中最后一個、也是歷時最長的一個階段。數(shù)據(jù)中心運維管理就是:為提供符合要求的信息系統(tǒng)服務,而對與該信息系統(tǒng)服務有關的數(shù)據(jù)中心各項管理對象進行系統(tǒng)地計劃、組織、協(xié)調與控制,是信息系統(tǒng)服務有關各項管理工作的總稱。數(shù)據(jù)中心運維管理主要肩負起以下重要目標:合規(guī)性、可用性、經(jīng)濟性、服務性等四大目標。
然而,在不少信息中心機房都配備有運維人員,但大都是“全才”的,即什么都管,尤其是對供電系統(tǒng)大都是由主機運維的人員代管。當電源系統(tǒng)出故障時此代管人員一問三不知,甚至連配電柜門都沒開過。這實際上就是把機房的運維放在了一個次要的地位。
當然也有的地方有所分工,看似重視,實際上也沒得到真正地重視。比如說機房設備長時間一直運行正常,這時如果運維人員提出要增添運維方面的測量設備,有的領導就認為多余,很難得到批準。但他不知道機房設備所以長時間一直運行正常正是由于這些運維人員的細心維護和努力保養(yǎng)獲得。并不是這些人員每天閑著無事可干,他們的這些工作一般是領導看不見的。比如同樣多款的UPS在同樣的環(huán)境條件下,在某衛(wèi)星地面站就極少出故障,而在同系統(tǒng)別的地方機房同一家同規(guī)格的機器就故障連連。原來是前者的運維人員每天都在細心觀察和分析機器面板LCD上顯示的數(shù)據(jù),一旦發(fā)現(xiàn)異常苗頭及時采取措施;而后者只限于每天抄寫這些數(shù)據(jù)就算完成任務,使異常苗頭不斷積累,以致于導致故障。比如斷路器在額定閉合狀態(tài)發(fā)現(xiàn)觸點處溫度高了,就要檢查是不是電流過大到超過額定值,如果不是就要檢查觸點接觸是否牢靠,是否需要再緊固一下。這樣一來,故障隱患就排除了。如果一直不管不問久而久之就會導致跳閘而使系統(tǒng)崩潰。這都是一些小的動作,都是在巡查中順便做的事情。所以看到運維人員都在巡查,但前者在做事而后者只是走馬觀花。這就是數(shù)據(jù)中心可靠與不可靠的區(qū)別。
運維人員就像幼兒園的保育員和老師,孩子交到幼兒園后起主要作用的就是保育員和老師,這時保育員和老師就是主體。機器就好比是幼兒園的孩子,孩子是否健康成長,機器是否正常運行除去本身的健康(可靠性質量)狀況外,那就是運維人員的責任了。由于云計算的要求彈性、靈活快速擴展、降低運維成本、自動化資源監(jiān)控、多租戶環(huán)境等特性,除基于ITIL( IT基礎設施庫)的常規(guī)數(shù)據(jù)中心運維管理理念之外,以下運維管理方面的內(nèi)容,需要我們加以重點關注。
1、理清云計算數(shù)據(jù)中心的運維對象
數(shù)據(jù)中心的運維管理指的是與數(shù)據(jù)中心信息服務相關的管理工作的總稱。云計算數(shù)據(jù)中心運維對象一般可分成5大類:
(1) 機房環(huán)境基礎設施部分
這里主要指的是為保障數(shù)據(jù)中心所管理的設備正常運行所必需的網(wǎng)絡通信、供配電系統(tǒng)、環(huán)境系統(tǒng)消防系統(tǒng)和安保系統(tǒng)等。這部分設備對于用戶來說幾乎是透明的,比如大多數(shù)用戶大都不會關忽略數(shù)據(jù)中心的供電和制冷。因為這類設備如果發(fā)生意外,對依托于該基礎設施的應用來說是致命的。
(2) 數(shù)據(jù)中心所應用的各種設備
這些設備包括存儲、服務器、網(wǎng)絡設備和安全設備等硬件資源。這類設備在向用戶提供IT服務過程中提供了計算、存?zhèn)鬏敽屯ㄐ诺裙δ?,是IT服務最核心的部分。
(3) 系統(tǒng)與數(shù)據(jù)
這部分包括操作系統(tǒng)、數(shù)據(jù)庫、中間環(huán)節(jié)和應用程序等軟件資源,還有業(yè)務數(shù)據(jù)、配置文件、日志等各類數(shù)據(jù)。這類管理對象雖然不像前兩類管理對象那樣“看得見,摸得著”,但卻是IT服務的邏輯載體。
(4) 管理工具包括了基礎設施監(jiān)控軟件、IT監(jiān)控軟件、工作流管理平臺、報表平臺和短信平臺等。
這類管理對象是幫助管理主體更高效地管理數(shù)據(jù)中心內(nèi)各種管理對象的工作情況,并在管理活動中承擔起部分管理功能的軟硬件設施。通過這些工具,可以直觀感受并考證數(shù)據(jù)中心如何管理好與其直接相關的資源,從而間接地提升的可用性與可靠性。
(5) 包括數(shù)據(jù)中心在內(nèi)的技術人員、運維人員、管理人員以及提供服務的廠商人員。
人員一方面作為管理的主體負責管理數(shù)據(jù)中心的運維對象,另一方面也作為管理的對象,支持IT的運行。這類對象與其他運維對象不同,具有很強的主觀能動性,其管理的好壞將直接影響到整個運維管理體系,而不僅僅是運維對象本身。
2、定義各運維對象的運維內(nèi)容
云計算數(shù)據(jù)中心資源管理所涵蓋的范圍很廣,包括環(huán)境管理、網(wǎng)絡管理、設備管理、軟件管理、存儲介質管理、防病毒管理、應用管理、日常操作管理、用戶密碼管理和員工管理等。這就需要對每一個管理對象的日常維護工作內(nèi)容有一個明確的定義,定義操作內(nèi)容、維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現(xiàn)對整個系統(tǒng)全生命周期地追蹤管理。
3、建立信息化的運維管理平臺系統(tǒng)和IT服務管理系統(tǒng)
4、定制化管理
靈活性、個性化是云服務的顯著特征,用戶對應用系統(tǒng)有著千差萬別的個性化需求,云服務提供商在保證共性需求的基礎上,還要滿足用戶個性化的定制需求,向用戶提供靈活和個性化配置的云服務系統(tǒng)。云服務提供商要提供按需變化的服務,就要有反應敏捷的人員、流程和工具,來適應業(yè)務變化的需要。云服務下的運維需要更多的靈活性和可伸縮性,可以根據(jù)客戶與合作伙伴的需要,快速調整資源、服務和基礎設施。
5、自動化管理
IT服務根據(jù)負載變化的情況可以自動調整所需的資源,以求在及時響應和節(jié)約成本上取得平衡。同時,還考慮到計算能力和規(guī)模會越來越大,人工管理資源也會越來越復雜。這些新特性對IT管理自動化能力提出了更高要求。企業(yè)往往希望在不失靈活性的前提下可以得到更高程度的自動化。為此,云計算數(shù)據(jù)中心需要部署自動化管理平臺,集中管理虛擬化和云計算平臺和提供自定義規(guī)則以定制功能的自動化解決方案,用戶通過使用事件觸發(fā)、數(shù)據(jù)監(jiān)控觸發(fā)等方式來自動化管理,不但節(jié)約了人力,同時也提高了響應速度。
6、用戶關系管理
云計算數(shù)據(jù)中心是為多租戶提供IT服務的平臺,為了保留和吸引用戶,在運維過程中對用戶關系管理非常重要。
(1) 服務評審:與客戶進行定期或不定期的針對服務提供情況進行溝通。每次的溝通均應形成溝通記錄,以備數(shù)據(jù)中心對服務進行評價和改進。
(2) 用戶滿意度調查:用戶滿意度調查主要包括用戶滿意度調查的設計、執(zhí)行和用戶滿意度調查結果的分析和改進等4個階段。數(shù)據(jù)中心可根據(jù)用戶的特點制定不同的用戶滿意度調查方案。
(3) 用戶抱怨管理:用戶抱怨管理規(guī)定了數(shù)據(jù)中心接收用戶提出抱怨的途徑以及抱怨的相應方式,并留下與事件管理等流程聯(lián)系的的接口。應針對用戶抱怨完成分析報告,總結用戶抱怨的原因,制定相關的改進措施。為及時應對用戶的抱怨,需要對該規(guī)定用戶抱怨的升級機制,對于嚴重的用戶抱怨,按升級的用戶投訴流程進行相應處理。
7、安全性管理
由于提供服務的系統(tǒng)和數(shù)據(jù)被轉移到用戶可掌控的范圍之外,云服務的數(shù)據(jù)安全、隱私保護就已成為用戶對云服務最為擔憂的方面。云服務引發(fā)的安全問題除了包括傳統(tǒng)網(wǎng)絡與信息安全問題(如系統(tǒng)防護、數(shù)據(jù)加密、用戶訪問控制、Dos攻擊等問題)外,還包括由集中服務模式所引發(fā)的安全問題以及云計算技術引入的安全問題。例如防虛機隔離、多租戶數(shù)據(jù)隔離、殘余數(shù)據(jù)擦除以及多SaaS(Software as a Service)應用統(tǒng)一身份認證等問題。要解決云服務引發(fā)的安全問題,云服務提供商需要提升用戶安全認知、強化服務運營管理和加強安全技術保障等。需要加強用戶對不同重要性數(shù)據(jù)遷移的認知,并在服務合同中強化用戶自身的服務帳號保密意識,這可以提升用戶對安全的認知。在服務管理方面,要嚴格設定關鍵系統(tǒng)的分級分權管理權限并輔之以相應規(guī)章制度,同時加強對合作供應商的資格審查與保密教育。加強安全技術保障,以充分利用網(wǎng)絡安全、數(shù)據(jù)加密、身份認證等技術,消除用戶對云服務使用的安全擔憂,增強用戶使用云服務的信心。
8、流程管理
流程是數(shù)據(jù)中心運維管理質量的保證。作為客戶服務的物理載體,數(shù)據(jù)中心存在的目的就是要保證服務可以按質、按量地提供符合用戶要求的服務。為確保最終提供給用戶的服務是符合服務合同的要求,數(shù)據(jù)中心需要把現(xiàn)在的管理工作抽象成不同的管理流程,并把流程之間的關系、流程的角色、流程的觸發(fā)點和流程的輸入與輸出等進行詳細定義。通過這種流程的建立,一方面可以使數(shù)據(jù)中心的人員能夠對工作有一個統(tǒng)一的認識,更重要的是通過這些服務工作的流程化使得整個服務提供過程可被監(jiān)控和管理,以形成真正意義上的“IT。 服務數(shù)據(jù)中心建立的管理流程除應滿足數(shù)據(jù)中心自身特點外,還應能兼顧用戶、管理者和服務商與審計機構的需求。由于每個數(shù)據(jù)中心的實際運維情況與管理目標存在差異,數(shù)據(jù)中心需要建立的流程也會有所不同。
9、應急預案管理
應急預案是為確保發(fā)生故障事件后,盡快消除緊急事件的不良影響,恢復業(yè)務的持續(xù)運營而制定的應急處理措施。應急預案的注意事項:
(1) 根據(jù)業(yè)務影響分析的結果及故障場景的特點編寫應急預案,以確保當緊急事件發(fā)生后可維持業(yè)務繼續(xù)運作,在重要業(yè)務流程中斷或發(fā)生故障后在規(guī)定時間內(nèi)要及時恢復業(yè)務運作。
(2) 應急預案除包括特定場景出現(xiàn)后各部門和第三方的責任與職責外,還應評估復原可接受的總時間。
(3) 應急預案必須經(jīng)過演練,使相關責任人熟悉應急預案的內(nèi)容。應急預案應是一個閉環(huán)管理系統(tǒng)。從預案的創(chuàng)建、演練、評估到修訂應是一個全過程的管理,絕不能是為了應付某個演練工作,制定后就束之高閣了。而是應該在實際演練和問題發(fā)生時不斷地總結和完善。
所以,就全局而言,運維人員的地位不可忽視。只有運維管理好一個數(shù)據(jù)中心,才能充分發(fā)揮數(shù)據(jù)中心的作用,使之能更好地為云計算提供強大的支持能力。通過有效實施云計算數(shù)據(jù)中心運維管理,減少人員工作量的同時還要提高運維人員的工作素質和效率,保障業(yè)務人員的工作效率,提高業(yè)務系統(tǒng)運行狀況,進而提高企業(yè)整體的管理效益,同時也提高了用戶的滿意度,才能實現(xiàn)云計算數(shù)據(jù)中心的價值最大化。