平臺論壇博客文庫

› 論壇 › 操作系統(tǒng) › HP-UX › HP文檔中心 › 簡單分析Crash Dump

簡單分析Crash Dump [復(fù)制鏈接]

tangle

豐衣足食

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報(bào)告]

發(fā)表于 2006-03-28 10:01 |只看該作者 |倒序?yàn)g覽

分析Crash Dump
通常crash dump 是由響應(yīng)中心進(jìn)行分析的，因?yàn)樯钊氲胤治鲂枰獙Σ僮飨?br /> 統(tǒng)的內(nèi)部有深入地了解。然面有時(shí)crash dump 的原因很簡單，如果能夠很快找到
原因，就會縮短解決故障的周期。
下面只介紹一種最簡單的方法，需要用到Q4 工具（默認(rèn)安裝都有）。
#cd /var/adm/crash/crash.0 #enter the dump dir you want to analysis
#q4pxdb vmunix #may not be neccessary
#echo "run WhatHappened" | q4 -m –Np . > wh.txt
以上命令通過調(diào)用名為WhatHappened 腳本將系統(tǒng)發(fā)生crash 時(shí)的狀況大致列出來，保存到wh.txt 文件中。如果Crash 是因?yàn)镸C/SG 發(fā)出的TOC 命令，或是因?yàn)镠PMC 等原因，在這里就已經(jīng)可以清楚地看到了。

Core dump的幾種類型總結(jié):
Core dump的幾種類型總結(jié)：
Panic ----這種類型主要是kernel問題，是可以通過修補(bǔ)系統(tǒng)解決的，一般是系統(tǒng)造成。
HPMC --- High Priority Machine Check.。這通常是硬件出了問題。比如CPU，memory或者I/O總線等等。
Hang --- 一般是在系統(tǒng)運(yùn)行大量進(jìn)程，導(dǎo)致系統(tǒng)資源不足引起的，系統(tǒng)本身并沒有問題�；蛟S資源過一段時(shí)間會釋放。不過有時(shí)也有可能是硬件或者系統(tǒng)bug引起。
下面簡單介紹一下HPMC
High Priority Machine Check,是服務(wù)器確保可靠性的措施之一。
當(dāng)系統(tǒng)發(fā)現(xiàn)了某些可能會影響數(shù)據(jù)完整性的錯(cuò)誤時(shí)，例如CPU data cache檢驗(yàn)錯(cuò)，就會發(fā)出一個(gè)HPMC，記錄相關(guān)信息以供分析，并使主機(jī)重起要求對錯(cuò)誤進(jìn)行糾正。與之相對應(yīng)的是LPMC，Low Priority Machine Check,這樣的錯(cuò)誤通常比較輕微，例如內(nèi)存發(fā)生single-bit parity error, 內(nèi)存的校錯(cuò)機(jī)制可以在single-bit error時(shí)自動糾錯(cuò)，所以通常LPMC只是在syslog中與mstm log中加一行日志。
HPMC一般說來與OS無關(guān)，是硬件層面上的。在極個(gè)別的情況下，軟件也會引發(fā)HPMC。收集HPMC 在發(fā)生HPMC時(shí)，故障發(fā)生時(shí)CPU的狀態(tài)等信息會被保存下來。
分析HPMC的第一步就是取得這些信息。
收集HPMC信息的途徑有多種，在PDC菜單中SER->PIM，或是在mstm中對CPU設(shè)備get information，/var/tombstones下的tsXY文件等都可以找到HPMC的記錄，可以根據(jù)當(dāng)時(shí)的情況選擇合適的方法。
通常比較方便的辦法是看/var/tombstones/下與系統(tǒng)重起日期吻合的文件，ts99是最新的文件，每次系統(tǒng)重起都會產(chǎn)生一個(gè)新的ts99。如果發(fā)現(xiàn)這些文件中沒有相關(guān)的信息，檢查/etc/rc.config.d/pdcinfo中PDCINFO是否設(shè)為1。
分析HPMC
分析HPMC同樣是一種藝術(shù)，需要豐富的知識和經(jīng)驗(yàn)，上過相關(guān)課程的應(yīng)該記得那些框圖有多復(fù)雜。通常工程師在現(xiàn)場收集相關(guān)的信息交由響應(yīng)中心進(jìn)行處理。但是基于與處理crash dump相同的理由，自已處理一些簡單的case并非不可能。

本文來自ChinaUnix博客，如果查看原文請點(diǎn)：http://blog.chinaunix.net/u/16493/showart_91734.html