- 論壇徽章:
- 0
|
分析Crash Dump
通常crash dump 是由響應(yīng)中心進(jìn)行分析的,因為深入地分析需要對操作系
統(tǒng)的內(nèi)部有深入地了解。然面有時crash dump 的原因很簡單,如果能夠很快找到
原因,就會縮短解決故障的周期。
下面只介紹一種最簡單的方法,需要用到Q4 工具(默認(rèn)安裝都有)。
#cd /var/adm/crash/crash.0 #enter the dump dir you want to analysis
#q4pxdb vmunix #may not be neccessary
#echo "run WhatHappened" | q4 -m –Np . > wh.txt
以上命令通過調(diào)用名為WhatHappened 腳本將系統(tǒng)發(fā)生crash 時的狀況大致列出來,保存到wh.txt 文件中。如果Crash 是因為MC/SG 發(fā)出的TOC 命令,或是因為HPMC 等原因,在這里就已經(jīng)可以清楚地看到了。
Core dump的幾種類型總結(jié):
Core dump的幾種類型總結(jié):
Panic ----這種類型主要是kernel問題,是可以通過修補(bǔ)系統(tǒng)解決的,一般是系統(tǒng)造成。
HPMC --- High Priority Machine Check.。這通常是硬件出了問題。比如CPU,memory或者I/O總線等等。
Hang --- 一般是在系統(tǒng)運行大量進(jìn)程,導(dǎo)致系統(tǒng)資源不足引起的,系統(tǒng)本身并沒有問題;蛟S資源過一段時間會釋放。不過有時也有可能是硬件或者系統(tǒng)bug引起。
下面簡單介紹一下HPMC
High Priority Machine Check,是服務(wù)器確?煽啃缘拇胧┲。
當(dāng)系統(tǒng)發(fā)現(xiàn)了某些可能會影響數(shù)據(jù)完整性的錯誤時,例如CPU data cache檢驗錯,就會發(fā)出一個HPMC,記錄相關(guān)信息以供分析,并使主機(jī)重起要求對錯誤進(jìn)行糾正。與之相對應(yīng)的是LPMC,Low Priority Machine Check,這樣的錯誤通常比較輕微,例如內(nèi)存發(fā)生single-bit parity error, 內(nèi)存的校錯機(jī)制可以在single-bit error時自動糾錯,所以通常LPMC只是在syslog中與mstm log中加一行日志。
HPMC一般說來與OS無關(guān),是硬件層面上的。在極個別的情況下,軟件也會引發(fā)HPMC。 收集HPMC 在發(fā)生HPMC時,故障發(fā)生時CPU的狀態(tài)等信息會被保存下來。
分析HPMC的第一步就是取得這些信息。
收集HPMC信息的途徑有多種,在PDC菜單中SER->PIM,或是在mstm中對CPU設(shè)備get information,/var/tombstones下的tsXY文件等都可以找到HPMC的記錄,可以根據(jù)當(dāng)時的情況選擇合適的方法。
通常比較方便的辦法是看/var/tombstones/下與系統(tǒng)重起日期吻合的文件,ts99是最新的文件,每次系統(tǒng)重起都會產(chǎn)生一個新的ts99。如果發(fā)現(xiàn)這些文件中沒有相關(guān)的信息,檢查/etc/rc.config.d/pdcinfo中PDCINFO是否設(shè)為1。
分析HPMC
分析HPMC同樣是一種藝術(shù),需要豐富的知識和經(jīng)驗,上過相關(guān)課程的應(yīng)該記得那些框圖有多復(fù)雜。通常工程師在現(xiàn)場收集相關(guān)的信息交由響應(yīng)中心進(jìn)行處理。但是基于與處理crash dump相同的理由,自已處理一些簡單的case并非不可能。
本文來自ChinaUnix博客,如果查看原文請點:http://blog.chinaunix.net/u/16493/showart_91734.html |
|