- 論壇徽章:
- 0
|
分析Crash Dump
通常crash dump 是由響應(yīng)中心進(jìn)行分析的,因?yàn)樯钊氲胤治鲂枰獙Σ僮飨?br />
統(tǒng)的內(nèi)部有深入地了解。然面有時(shí)crash dump 的原因很簡單,如果能夠很快找到
原因,就會縮短解決故障的周期。
下面只介紹一種最簡單的方法,需要用到Q4 工具(默認(rèn)安裝都有)。
#cd /var/adm/crash/crash.0 #enter the dump dir you want to analysis
#q4pxdb vmunix #may not be neccessary
#echo "run WhatHappened" | q4 -m –Np . > wh.txt
以上命令通過調(diào)用名為WhatHappened 腳本將系統(tǒng)發(fā)生crash 時(shí)的狀況大致列出來,保存到wh.txt 文件中。如果Crash 是因?yàn)镸C/SG 發(fā)出的TOC 命令,或是因?yàn)镠PMC 等原因,在這里就已經(jīng)可以清楚地看到了。
Core dump的幾種類型總結(jié):
Core dump的幾種類型總結(jié):
Panic ----這種類型主要是kernel問題,是可以通過修補(bǔ)系統(tǒng)解決的,一般是系統(tǒng)造成。
HPMC --- High Priority Machine Check.。這通常是硬件出了問題。比如CPU,memory或者I/O總線等等。
Hang --- 一般是在系統(tǒng)運(yùn)行大量進(jìn)程,導(dǎo)致系統(tǒng)資源不足引起的,系統(tǒng)本身并沒有問題;蛟S資源過一段時(shí)間會釋放。不過有時(shí)也有可能是硬件或者系統(tǒng)bug引起。
下面簡單介紹一下HPMC
High Priority Machine Check,是服務(wù)器確保可靠性的措施之一。
當(dāng)系統(tǒng)發(fā)現(xiàn)了某些可能會影響數(shù)據(jù)完整性的錯(cuò)誤時(shí),例如CPU data cache檢驗(yàn)錯(cuò),就會發(fā)出一個(gè)HPMC,記錄相關(guān)信息以供分析,并使主機(jī)重起要求對錯(cuò)誤進(jìn)行糾正。與之相對應(yīng)的是LPMC,Low Priority Machine Check,這樣的錯(cuò)誤通常比較輕微,例如內(nèi)存發(fā)生single-bit parity error, 內(nèi)存的校錯(cuò)機(jī)制可以在single-bit error時(shí)自動糾錯(cuò),所以通常LPMC只是在syslog中與mstm log中加一行日志。
HPMC一般說來與OS無關(guān),是硬件層面上的。在極個(gè)別的情況下,軟件也會引發(fā)HPMC。 收集HPMC 在發(fā)生HPMC時(shí),故障發(fā)生時(shí)CPU的狀態(tài)等信息會被保存下來。
分析HPMC的第一步就是取得這些信息。
收集HPMC信息的途徑有多種,在PDC菜單中SER->PIM,或是在mstm中對CPU設(shè)備get information,/var/tombstones下的tsXY文件等都可以找到HPMC的記錄,可以根據(jù)當(dāng)時(shí)的情況選擇合適的方法。
通常比較方便的辦法是看/var/tombstones/下與系統(tǒng)重起日期吻合的文件,ts99是最新的文件,每次系統(tǒng)重起都會產(chǎn)生一個(gè)新的ts99。如果發(fā)現(xiàn)這些文件中沒有相關(guān)的信息,檢查/etc/rc.config.d/pdcinfo中PDCINFO是否設(shè)為1。
分析HPMC
分析HPMC同樣是一種藝術(shù),需要豐富的知識和經(jīng)驗(yàn),上過相關(guān)課程的應(yīng)該記得那些框圖有多復(fù)雜。通常工程師在現(xiàn)場收集相關(guān)的信息交由響應(yīng)中心進(jìn)行處理。但是基于與處理crash dump相同的理由,自已處理一些簡單的case并非不可能。
本文來自ChinaUnix博客,如果查看原文請點(diǎn):http://blog.chinaunix.net/u/16493/showart_91734.html |
|