概述 在用戶日常的系統(tǒng)使用和維護中,經(jīng)常面臨以下兩個問題:一,系統(tǒng)硬件升級時的宕機時間較長;二,系統(tǒng)資源無法均衡利用,造成資源浪費。針對以上問題,IBM Power7 系統(tǒng)提供了掛起和恢復功能,掛起是指 LPAR 處于待機 / 休眠的狀態(tài),它占用的資源可以被其他 LPAR 使用,而恢復意味著分區(qū)可以從休眠恢復到掛起時的狀態(tài),整個過程中 LPAR 的狀態(tài)信息存放在存儲設備的頁交換空間里,因而它可以有效地減少宕機時間,合理分配和使用系統(tǒng)資源。本文詳細介紹了掛起和恢復的基本原理、系統(tǒng)狀態(tài)機轉換、并圖解介紹了系統(tǒng)掛起恢復的基本流程,希望能給系統(tǒng)實施人員和系統(tǒng)管理員的日常工作提供參考。 名詞解釋 RSDP: Reserved Storage Device Pool(存儲設備池) VIOS: 虛擬 IO 服務器 LPAR: Power 系統(tǒng)的邏輯分區(qū) LPM: Logical Partition Mobile(邏輯分區(qū)遷移)
掛起和恢復的具體含義 在 IBM POWER7 系統(tǒng)中,VIOS 支持 AIX 或者 Linux LPAR 的掛起和恢復,當一個 LPAR 掛起的時候,其上運行的操作系統(tǒng)和應用都被掛起,整個 LPAR 的運行狀態(tài)被保存下來。當恢復 LPAR 的時候,所有掛起時運行的進程都被復原。 一旦一個 LPAR 處于掛起狀態(tài),它占用的所有 CPU 和內(nèi)存資源都可以被其他 LPAR 利用,與 VIOS 相關的虛擬適配器的配置信息暫時被移除,被保存在存儲設備中,留做恢復時使用。這時 HMC 中該 LPAR 顯示的狀態(tài)為掛起,在掛起狀態(tài)下,任何計劃中或意外的斷電都不會影響該 LPAR。
掛起和恢復功能給應用帶來的益處 - 均衡利用資源,可以按照應用系統(tǒng)的需求,更加合理地安排資源的使用,當資源緊張時,通過掛起部分 LPAR,釋放出資源滿足其他緊急的業(yè)務需求,待資源寬裕時,再恢復掛起的 LPAR。
- 方便硬件的維護和升級,當需要升級時掛起系統(tǒng),升級完畢,恢復系統(tǒng)即可。
- 由于該處理方法只涉及一個 server 服務器,且只需 PowerVM 標準版,所以相比遷移(LPM)的方式要簡單省時經(jīng)濟。
- 對于應用的開啟關閉需要較長時間的系統(tǒng),傳統(tǒng)的方式是通過關機進行系統(tǒng)維護,采用掛起和恢復功能,可以有效減少系統(tǒng)維護的宕機時間。
掛起和恢復中包含的基本概念 為方便讀者理解掛起和恢復的功能,下面介紹兩個基本概念:RSDP 和系統(tǒng)狀態(tài)機轉換,其中 RSDP( 保留存儲池 ) 用于給 LPAR 分配存儲空間,狀態(tài)機轉換主要是討論在掛起和恢復中系統(tǒng)處于的運行狀態(tài)。 - RSDP 的含義
當 LPAR 處于掛起狀態(tài)時,其狀態(tài)信息存放在一個保留的存儲設備中,這個存儲設備是通過 HMC,在 RSDP( 保留存儲池 ) 中進行分配的,其容量大約是該 LPAR 最大內(nèi)存的 110%。RSDP 包含許多保留存儲設備,也叫做換頁空間,每一個要掛起的 LPAR 都必須擁有自己的換頁空間。通常我們將一個 VIOS 分區(qū)與 RSDP 關聯(lián),提供換頁服務,當然為了提供冗余路徑,保證高可用的換頁空間設備,我們也可以將另外一個 VIOS 也與 RSDP 關聯(lián)起來。 當系統(tǒng)滿足掛起條件時,RSDP 可以在 HMC 中設置,既可以通過 HMC CLI, 也可以通過圖形界面。當執(zhí)行掛起操作時,HMC 從 RSDP 中分配存儲空間給相應 LPAR,通常它會自動挑選一塊沒有被使用而且大小合適的空間用做存儲 LPAR 掛起時的數(shù)據(jù),當然必須保證 RSDP 的該部分存儲在系統(tǒng)掛起時是可用的。 舉例說明 RSDP 中頁空間的分配,在本實例中,采用實施中最典型的雙 VIOS 分區(qū),劃分了 4 個 LPAR,RSDP 的設計既包含外部存儲也包含內(nèi)部存儲,既有雙路徑連接也有單路徑連接,基本覆蓋了 RSDP 中涉及的所有情況。 其中 LPAR1,LPAR2,LPAR3 使用 SAN 磁盤作為換頁空間設備,LPAR4 使用本地磁盤作為換頁空間設備,并關聯(lián)在 VIOS 分區(qū) 2 上,兩個 VIOS 分區(qū)如圖所示和 SAN 連接,綠線代表換頁空間設備映射給 VIOS 分區(qū) 1,藍線代表換頁空間設備映射給 VIOS 分區(qū) 2,其中換頁空間設備 2(Paging space device2) 和換頁空間設備 3(Paging space device3) 擁有雙路徑。
圖 1.RSDP 中換頁空間的分配([color=rgb(76, 110, 14 ][size=1em]
- )
在 PowerVM 的標準版中,我們可以在 RSDP 中管理換頁空間,比如以下的操作:
- 創(chuàng)建和刪除 RSDP
- 從 RSDP 中添加或刪除 VIOS
- 在 RSDP 中添加或刪除換頁空間設備
- 掛起恢復中系統(tǒng)狀態(tài)機轉換
以下是 LPAR 在運行中基本的狀態(tài)機轉換,本文側重于掛起恢復部分的介紹。
圖2.LPAR 狀態(tài)機轉換
![]()
- 掛起
LPAR 的狀態(tài)信息存放在存儲設備中,任何計劃中或意外的斷電都不會影響該 LPAR。 在 HMC 界面里,掛起操作通常要經(jīng)過以下流程:
- 啟動掛起操作。
- 掛起操作的環(huán)境驗證,包括掛起功能是否使能,RSDP 是否存在等。
- 保存 HMC 數(shù)據(jù),也就是 LPAR 的系統(tǒng)配置信息。
- 保存 LPAR 的數(shù)據(jù),也就是操作系統(tǒng)的運行狀態(tài)信息。
- 完成掛起操作。
- 恢復
使 LPAR 恢復到掛起時的運行狀態(tài)。 在 HMC 界面里,恢復操作通常要經(jīng)過以下流程:
- 啟動恢復操作。
- 恢復操作的環(huán)境驗證,系統(tǒng)硬件是否符合 LPAR 配置要求,RSDP 是否存在等。
- 恢復 LPAR 配置。
- 恢復 LPAR 的數(shù)據(jù),也就是操作系統(tǒng)的運行狀態(tài)。
- 完成恢復操作。
- 關閉
將 LPAR 由掛起狀態(tài)置為停機,通常換頁空間會被釋放,所有虛擬適配器的配置信息都會保存起來,也包括一些操作系統(tǒng)運行信息,以保證 LPAR 以后可以被正常激活。 如果是強制停機,部分運行時的配置、數(shù)據(jù)信息可能會丟失,使得 LPAR 處于不一致的系統(tǒng)狀態(tài),從而導致 LPAR 再次激活時出錯,所以不推薦這種狀態(tài)轉換。 - LPM
LPAR 的遷移,分為動態(tài)遷移和靜態(tài)遷移,具體參考 IBM 其他文檔介紹。 - 遷移
將掛起的 LPAR 遷移到另外一臺主機上,該技術基于 LPM,在遷移過程中,LPAR 的配置文件,操作系統(tǒng)運行時狀態(tài)信息都會遷移到目標主機,從而可以在新的主機上被恢復。
掛起恢復的基本操作
結束語 掛起和恢復功能操作簡單,實踐中減少了系統(tǒng)維護過程中的宕機時間,使資源得到合理分配和利用,從而有效地簡化了 IT 人員的系統(tǒng)維護工作,今后會在工程中得到廣泛的應用
作者簡介 張曉光,就職于 IBM CSTL,目前主要是從事 Lab Service 的工作,針對 POWER 平臺進行系統(tǒng)實施,包括 PowerVM, PowerHA, Dirctor,VMControl 等。
康明,IBM 中國系統(tǒng)與科技實驗室資深 IT工程師,目前主要從事 IBM Power 系統(tǒng)虛擬化產(chǎn)品相關服務工作。
田永衛(wèi),IBM 中國系統(tǒng)與技術實驗室的資深系統(tǒng)工程師,研究生畢業(yè)于西安電子科技大學計算機系。目前主要從事 IBM Power 系統(tǒng)、IBM Systems Director 及基礎架構云方面的技術。
http://www.ibm.com/developerworks/cn/aix/library/1109_zhangxg_power7suspend/index.html
|