首先,打開 SDMC 的
Setting 頁面,點(diǎn)擊在
Serviceability Task 下面的
Getting Started Wizard 鏈接,如圖 2 所示,進(jìn)入啟動(dòng)向?qū)А?/div>
圖 2. 從 SDMC 配置界面打開 SSM 啟動(dòng)向?qū)?/font>
如下圖 3、圖 4 所示,在聯(lián)系人和服務(wù)器位置頁面,根據(jù)實(shí)際情況,填下公司名稱、聯(lián)系人電話、郵件以及服務(wù)器位置信息,對于沒有星號標(biāo)注的可忽略不填。IBM 客戶支持中心將根據(jù)這些信息和管理員取得聯(lián)系,確認(rèn)提交的服務(wù)請求,安排技術(shù)支持進(jìn)行服務(wù)器故障排除和維修。
圖 3. 輸入聯(lián)系人信息
圖 4.輸入服務(wù)器位置信息
在接下來的網(wǎng)絡(luò)連接頁面,可以選用直接(或者代理方式)連接,通過運(yùn)行 Test Connection 以確認(rèn)和 IBM 支持中心連接正常。
圖 5. SDMC 使用的網(wǎng)絡(luò)連接信息
在 Authorized IBM IDs 頁面,提供用于訪問服務(wù)請求的 ID 信息,完成啟動(dòng)向?qū)Ш,SDMC 的 SSM 功能就被成功激活。 現(xiàn)在,SDMC 開始實(shí)時(shí)監(jiān)控所有管理的 Power 服務(wù)器,對發(fā)生的 Serviceable 的硬件故障自動(dòng)收集故障日志和提交報(bào)修服務(wù)請求。
使用 SDMC 修改 SSM 配置信息
從 SDMC 歡迎頁面打開 Manage 頁面,可以確認(rèn) SSM 的當(dāng)前狀態(tài),點(diǎn)擊 Service And Support Manager 鏈接,可以進(jìn)入它的概覽頁面,如圖 6 所示。
圖 6. SDMC 的 SSM 概覽頁面
使用 SDMC 對 Power 服務(wù)器 Serviceable 故障處理,基本上可以從這個(gè)頁面開始。這個(gè)頁面分為三部分,分別是 Problem Reporting,Status 和 Setup and Configuration。
最上面的 Problem Reporting 部分圖形化地給出當(dāng)前管理的 Power 服務(wù)器 Serviceable 故障概況, Status 部分顯示出 SSM 當(dāng)前的工作狀態(tài),Setup and Configuration 部分提供了任務(wù)菜單以修改 SSM 的一些配置信息。
首先,我們使用 Setup and Configuration 下的任務(wù) Manage Settings 先看一下 SSM 的一些配置信息。如圖 7 所示,在啟動(dòng) SSM 之后,缺省情況下 SDMC 會(huì)對所有管理的 Power 服務(wù)器進(jìn)行實(shí)時(shí)監(jiān)控,并自動(dòng)報(bào)修 Serviceable 的硬件故障。
圖 7. 在 SDMC 上管理 SSM 的設(shè)置
實(shí)際上,系統(tǒng)管理員也可以通過修改 SSM 配置,取消特定(或所有服務(wù)器)自動(dòng)報(bào)修服務(wù),如選取上圖中紅框所示區(qū)域選項(xiàng),在此情況下,系統(tǒng)管理員就需要根據(jù)實(shí)際情況對 Serviceable 的硬件故障手工收集故障日志,進(jìn)行報(bào)修。
使用 SDMC 的 SSM 管理和查看 Serviceable 故障
使用 SSM 概覽頁面最上面的 Problem Reporting 部分,可以直觀的了解當(dāng)前 Power 服務(wù)器的 Serviceable 故障信息。它以餅圖的形式直觀的概括出當(dāng)前 SDMC 所監(jiān)控的 Power 服務(wù)器的故障情況,給出有故障的系統(tǒng)和工作正常的系統(tǒng)所占的比例和數(shù)目。其中黃色三角表示系統(tǒng)存在 Serviceable 故障,綠色方塊表示系統(tǒng)工作正常。在概覽頁面,也會(huì)列出過去 24 小時(shí)內(nèi)與 Serviceable 故障相關(guān)的活動(dòng)信息。
圖 8. SDMC 的 SSM 概覽頁面 - Problem Reporting
在這個(gè)頁面還有 Serviceable Problems 和 All Problems 的鏈接,區(qū)別在于 All Problems 列表會(huì)包含所有的故障信息,包括 Serviceable 的故障和非 Serviceable 的故障。
通過點(diǎn)擊 Serviceable Problems 鏈接,可以瀏覽當(dāng)前 SDMC 監(jiān)控的 Power 服務(wù)器 Serviceable 故障描述及其詳細(xì)信息。
圖 9. SDMC 的 Serviceable 故障列表
正常情況下,SDMC 會(huì)對這些 Serviceable 故障自動(dòng)收集日志并提交報(bào)修請求,但也會(huì)發(fā)生自動(dòng)報(bào)修失敗的情況(或者管理員設(shè)置對 Power 服務(wù)器的 serviceable 故障不采取自動(dòng)報(bào)修),這時(shí)使用故障右鍵菜單 Submit to IBM 任務(wù)允許管理員再次手工創(chuàng)建并提交服務(wù)請求,參見下圖 10。
圖 10. 手工提交 Serviceable 故障到 IBM 支持中心
點(diǎn)擊列表中任意故障可以看到該故障的詳細(xì)信息,包括提交的服務(wù)請求(Service),推薦的修復(fù)方法(Recommendation),收集的故障日志(Support Files)等。
圖 11. Serviceable 故障的服務(wù)信息
在 Service 頁面,可以看到對這一故障的概括,包括提交的服務(wù)請求的編號,故障狀態(tài)和服務(wù)請求的狀態(tài),以及故障發(fā)生的次數(shù)等信息。為了避免發(fā)送重復(fù)的服務(wù)請求,SDMC 做了這樣的設(shè)計(jì),如果在 24 小時(shí)內(nèi)收到多次相同的 Serviceable 故障,那么只會(huì)記錄發(fā)生的次數(shù),不會(huì)提交多次服務(wù)請求。
這里還需要注意的是服務(wù)請求的狀態(tài)(Service Status),通常情況下,當(dāng) Power 服務(wù)器故障解決之后,服務(wù)請求不會(huì)自動(dòng)關(guān)閉,需要管理員通過故障 Action 菜單下 Close Service Request 任務(wù)請求關(guān)閉,參見上圖。關(guān)閉后的 Serviceable 故障不會(huì)從故障列表中消失,管理員必須手工把它從列表中刪除。
在下圖的 Recommendation 頁面,點(diǎn)擊 Repair 按鈕,SDMC 將根據(jù)這一硬件故障的情況提供一些維修建議和指導(dǎo)。
圖 12. Serviceable 故障的維修指導(dǎo)
在 Support Files 頁面,如圖 13,提供了自動(dòng)收集的故障日志文件信息,包括位置類型、狀態(tài)等。正常情況下,當(dāng)故障服務(wù)請求產(chǎn)生時(shí),這些相關(guān)的故障日志文件也會(huì)自動(dòng)上傳到 IBM 客戶支持中心。使用該頁面提供的按鈕項(xiàng),可以對這些故障日志文件進(jìn)行簡單的管理。
圖 13. Serviceable 故障的日志文件的提交
這里我們需要注意,實(shí)際上除了那些自動(dòng)提交的故障日志信息外,系統(tǒng)管理員還可以針對不同的 Power 服務(wù)器手工收集一些支持的故障日志并傳送到 IBM 客戶支持中心,下面我們來看一下如何手工收集故障日志。
使用 SDMC 手工收集和管理 Power 服務(wù)器的故障日志文件
如下圖所示,在 SDMC 上啟動(dòng) SSM 功能后,被 SSM 監(jiān)控的所有 Power 服務(wù)器會(huì)自動(dòng)歸類到 Monitored Systems 組中。
圖 14. 被 SSM 監(jiān)控的 Power System 列表
選取在此組中的任意服務(wù)器,通過右鍵點(diǎn)擊 SSM 的 Support File 任務(wù)可以在打開的 Manage Support File 口查看所有與該服務(wù)器相關(guān)的故障日志文件,也可以定制收集不同類型的日志文件,參見圖 15。
圖 15. 對 Power 服務(wù)器查看并收集特定的故障日志文件
一般來說,根據(jù) Power 服務(wù)器類型的不同,可選的日志文件類型也不盡相同,手工收集完成后,日志文件將會(huì)出現(xiàn)在上圖列表中。選取任意日志文件,使用 Action 菜單下的不同任務(wù),可以把該文件拷貝到光盤,或者傳送到 IBM 客戶支持中心。
圖 16. 對 Power 服務(wù)器傳送收集到故障日志文件到 IBM 客戶支持中心
對于所有的故障日志文件,SDMC 一般會(huì)存放在系統(tǒng) /dump 分區(qū)。由于該文件系統(tǒng)缺省大小為 120M,SDMC 會(huì)自動(dòng)從系統(tǒng)清除超過 7 天的日志文件,同時(shí),為了節(jié)省 SDMC 空間,建議用戶在隨時(shí)刪除無用的日志文件。
前面的例子中我們介紹了如何使用 SDMC 的 SSM 功能監(jiān)控處理 Serviceable 硬件故障,查看提交的故障服務(wù)請求,自動(dòng)和手工收集和管理故障日志,這些基本功能的使用,非常有助于 Power 服務(wù)器故障的快速定位和維修。
結(jié)合使用自動(dòng)化計(jì)劃任務(wù),可以做到一旦有嚴(yán)重的硬件故障發(fā)生,第一時(shí)間通知系統(tǒng)管理員采取快速地處理。
使用自動(dòng)化計(jì)劃對 Serviceable 硬件故障發(fā)送郵件通知
下面我們以發(fā)送郵件通知為例,實(shí)例說明如何在發(fā)生 Serviceable 硬件故障時(shí)使用自動(dòng)化計(jì)劃任務(wù)發(fā)送郵件通知給系統(tǒng)管理員。
在 SDMC 左側(cè)導(dǎo)航欄中 Automation 相關(guān)的條目中,我們可以看到自動(dòng)化計(jì)劃相關(guān)的任務(wù),包括自動(dòng)化計(jì)劃(Event Automation Plans)、事件響應(yīng)(Event Actions)、事件過濾器(Event Filters)。
首先,我們需要?jiǎng)?chuàng)建發(fā)送郵件通知的事件響應(yīng)。
打開 Event Action 頁面, 點(diǎn)擊 Create 按鈕,在 Create Event Action 窗口中選取類型為 Send an e-mail (Internet SMTP), 如圖 17 所示,彈出創(chuàng)建發(fā)送郵件通知的窗口,輸入郵箱地址,郵件服務(wù)器,端口信息等必要信息,并保存該自動(dòng)化響應(yīng)名字為 Email_notification。
圖 17. 創(chuàng)建發(fā)送郵件通知的自動(dòng)化響應(yīng)
然后,我們創(chuàng)建自動(dòng)化計(jì)劃對所有被監(jiān)控的 Power 服務(wù)器進(jìn)行實(shí)時(shí)監(jiān)控,當(dāng)有 Serviceable 的故障出現(xiàn)時(shí),自動(dòng)發(fā)送郵件通知。在Event Automation Plans 頁面點(diǎn)擊 Create 按鈕打開自動(dòng)化計(jì)劃創(chuàng)建向?qū)В鐖D 18 所示。
圖 18. 創(chuàng)建自動(dòng)化計(jì)劃任務(wù)
在 Target 頁面選取 All Systems ,對所有被管理的 Power 服務(wù)器進(jìn)行實(shí)時(shí)監(jiān)控;
在 Events 頁面選取 Advanced Event Filters 下的 Electronic Service Requests;
在 Event Actions 頁面選取前面創(chuàng)建的發(fā)送郵件通知的事件響應(yīng) Email_notification;
其余頁面使用缺省值,保存該自動(dòng)化計(jì)劃名字為 notification。
圖 19. 自動(dòng)化計(jì)劃任務(wù)實(shí)時(shí)監(jiān)控 Power 服務(wù)器上 Serviceable 故障
創(chuàng)建完成的自動(dòng)化計(jì)劃出現(xiàn)在上圖列表中,SDMC 開始(24x7)實(shí)時(shí)地監(jiān)控所有 Power 服務(wù)器,在 Serviceable 故障發(fā)生時(shí)自動(dòng)發(fā)送郵件通知給系統(tǒng)管理員。
總結(jié)
新一代的 Power System 管理工具,SDMC 取代了 HMC/IVM 提供了實(shí)現(xiàn)對 Power 服務(wù)器的統(tǒng)一管理。依托于 Systems Director 的強(qiáng)大功能,SDMC 擴(kuò)展使用了 SSM 功能,對 Power 服務(wù)器的硬件故障,自動(dòng)日志收集和提交報(bào)修服務(wù)請求,大大縮短了硬件故障的檢修周期,結(jié)合利用自動(dòng)化計(jì)劃可以加快故障處理速度,以幫助數(shù)據(jù)中心系統(tǒng)管理員實(shí)現(xiàn)對數(shù)據(jù)中心的 Power 服務(wù)器實(shí)時(shí)監(jiān)控和有效管理。
作者簡介
![]()
李永超,CSTL 軟件工程師 , 長期從事 Director 測試工作,目前主要負(fù)責(zé) Director6.1 的 Automation Manager 和 Base Management Server 功能測試和系統(tǒng)測試工作。
姜濤,IBM 中國系統(tǒng)與科技研發(fā)中心軟件工程師, 一直從事 Director 功能測試和系統(tǒng)環(huán)境維護(hù),目前主要負(fù)責(zé) SDMC 的功能測試和系統(tǒng)測試,以及 Director 高級管理插件 VMC 在 Power 服務(wù)器上的系統(tǒng)驗(yàn)證測試。
倪興榮,IBM 中國系統(tǒng)與科技研發(fā)中心軟件工程師, 目前主要負(fù)責(zé) SDMC 的功能測試和系統(tǒng)測試,以及 Director 高級管理插件 VMC 在 Power 服務(wù)器上的系統(tǒng)驗(yàn)證測試。
http://www.ibm.com/developerworks/cn/aix/library/1111_liyc_sdmc9/index.html