- 論壇徽章:
- 0
|
如何定期對系統(tǒng)做Health Check
系統(tǒng)每日運(yùn)轉(zhuǎn),為了最大程度上減少系統(tǒng)的非正常停機(jī),系統(tǒng)管理員應(yīng)定期對系統(tǒng)作Health Check
1. Health Check的目的
1)發(fā)現(xiàn)及定位已經(jīng)存在的風(fēng)險(xiǎn)
2)發(fā)現(xiàn)潛在的系統(tǒng)問題及風(fēng)險(xiǎn)
3)進(jìn)行預(yù)防性的保養(yǎng)維護(hù)
本文適用于HPUX主機(jī)和系統(tǒng),在PA-8600相關(guān)CPU的主機(jī)上測試通過,并可延伸到其他相關(guān)平臺和主機(jī)。
本文作者未知,疑為HP工程師或相關(guān)人員。
如何定期對系統(tǒng)做Health Check
系統(tǒng)每日運(yùn)轉(zhuǎn),為了最大程度上減少系統(tǒng)的非正常停機(jī),系統(tǒng)管理員應(yīng)定期對系統(tǒng)作Health Check
1. Health Check的目的
1)發(fā)現(xiàn)及定位已經(jīng)存在的風(fēng)險(xiǎn)
2)發(fā)現(xiàn)潛在的系統(tǒng)問題及風(fēng)險(xiǎn)
3)進(jìn)行預(yù)防性的保養(yǎng)維護(hù)
2. Health Check的步驟:
硬件系統(tǒng)
●指示燈
硬件系統(tǒng)通常都有狀態(tài)指示燈,正常運(yùn)行狀態(tài)下多為綠燈(閃爍或恒亮),如果出現(xiàn)黃燈、紅燈說明有故障(也有例外,應(yīng)視具體硬件而定),系統(tǒng)管理員應(yīng)注意觀察和掌握住系統(tǒng)正常運(yùn)行的狀態(tài)指示燈,這樣,硬件發(fā)生故障時,就能很快發(fā)現(xiàn)。
●液晶面板和主控臺
主機(jī)正常運(yùn)行時,液晶面板上通常有顯示如下:
RUN XXXXX
CPU 0 1 ...N
發(fā)生故障時,其液晶顯示屏或主控臺上都有ERROR或FLT一類的信息。
如果磁盤陣列運(yùn)行過程中,液晶屏上或主控臺上出現(xiàn)其他信息,如Disk Failue,Power Supply failure,X controller failure等時,應(yīng)及時與HP響應(yīng)中心聯(lián)系
●系統(tǒng)中的硬件信息及日志
1、檢查syslog.log
檢查syslog.log和OLDsyslog.log中有沒有關(guān)于硬件系統(tǒng)的諸如Error,Warning,Powerfail一類的信息。
2、使用mstm對硬件系統(tǒng)進(jìn)行診斷并查看相應(yīng)的硬件日志/usr/adm/diag/LOGXXX
3、使用相應(yīng)的工具查看硬件的firmware版本及配置信息
硬件部件
察看信息
使用工具
System Borad
Pdc firmware
Mstm
GSP
Firmware
GSP command
CPU
Numbers & Status
Ioscan-fnC processor
Memory
Total Size
Dmesg|grep Physical
SCSI card
HW path& ID
ioscan
Fibre channel
Date Code/firmware
Mstm/hardware check
Disk
Model &firmware
Diskinfo -v
Tape drive
Model &firmware
Diskinfo -v
Cdrom/DVD
Model &firmware
Diskinfo -v
Disk Array
ALL info
Autoraid:arraydsp -a
FC60: amdsp -a fc60
amdsp -d fc60
rebuild
amdsp -r fc60
amutil -rr 1:0 fc60
軟件系統(tǒng)
●安裝的軟件
1、檢查有無未configured的軟件和補(bǔ)。簊wlist -l fileset -a state
2、在11.0系統(tǒng)中檢查有無patch attribute的補(bǔ)。
swlist -l patch -a is_patch PH\*
3、檢查Swverify有無錯誤輸出
4、檢查/var/adm/sw/swagent.log中ERRORs和WARNINGs
●系統(tǒng)日志
檢查/var/adm/syslog/syslog.log及OLDsyslog.log中有無錯誤及警告信息
●網(wǎng)絡(luò)聯(lián)接
檢查nettl.LOG00中最近的錯誤信息
netfmt -f /var/adm/nettl.LOG00
●Dump的配置
1、用lvlnboot -v 檢查Dump區(qū)
2、檢查core dump目錄
3、確認(rèn)/etc/rc.config.d/savecore(10.x)或savecrash(11.x)值為1
●系統(tǒng)備份
確認(rèn)系統(tǒng)備份計(jì)劃執(zhí)行良好,有最近的系統(tǒng)備份且定期作數(shù)據(jù)備份
●系統(tǒng)交換區(qū)
1、確認(rèn)系統(tǒng)有足夠的交換區(qū):swapinfo
2、若內(nèi)存大于1GB,確認(rèn)swapmemon為1
●系統(tǒng)安全
1、檢查失敗的登陸:lasb
2、檢查/etc/passwd中有無相同的rootid
●系統(tǒng)起停
1、檢查啟動過程中的錯誤信息:/etc/rc.log
2、檢查關(guān)機(jī)日志/etc/shutdownlog確認(rèn)有無非正常關(guān)機(jī)和重啟
●LVM配置
1、確認(rèn)/etc/lvmconf中包含所有邏輯卷組的配置信息
2、確認(rèn)每個vg配置文件有備份
3、vgdisplay -v顯示所有的激活的vg的信息
●文件系統(tǒng)、磁盤空間、數(shù)據(jù)庫表空間檢查
1、bdf檢查文件系統(tǒng)大小及剩余空間
2、vgdisplay -v檢查每個vg的組成及剩余空間
3、使用數(shù)據(jù)庫工具檢查數(shù)據(jù)庫表空間
●Kernel
檢查/stand/vmunix存在,且其有備份存在于/stand目錄下
●Cluster
1、檢查/etc/cmcluster/pkgXXX/control.sh.log中的錯誤信息
2、cmviewcl -v檢查cluster狀況
本文來自ChinaUnix博客,如果查看原文請點(diǎn):http://blog.chinaunix.net/u2/65250/showart_2052528.html |
|