平臺論壇博客文庫

› 論壇 › 操作系統(tǒng) › HP-UX › HP文檔中心 › 簡單分析Crash Dump

簡單分析Crash Dump [復(fù)制鏈接]

tangle

豐衣足食

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報告]

發(fā)表于 2006-03-28 10:01 |只看該作者 |倒序瀏覽

分析Crash Dump
通常crash dump 是由響應(yīng)中心進(jìn)行分析的，因為深入地分析需要對操作系
統(tǒng)的內(nèi)部有深入地了解。然面有時crash dump 的原因很簡單，如果能夠很快找到
原因，就會縮短解決故障的周期。
下面只介紹一種最簡單的方法，需要用到Q4 工具（默認(rèn)安裝都有）。
#cd /var/adm/crash/crash.0 #enter the dump dir you want to analysis
#q4pxdb vmunix #may not be neccessary
#echo "run WhatHappened" | q4 -m –Np . > wh.txt
以上命令通過調(diào)用名為WhatHappened 腳本將系統(tǒng)發(fā)生crash 時的狀況大致列出來，保存到wh.txt 文件中。如果Crash 是因為MC/SG 發(fā)出的TOC 命令，或是因為HPMC 等原因，在這里就已經(jīng)可以清楚地看到了。

Core dump的幾種類型總結(jié):
Core dump的幾種類型總結(jié)：
Panic ----這種類型主要是kernel問題，是可以通過修補(bǔ)系統(tǒng)解決的，一般是系統(tǒng)造成。
HPMC --- High Priority Machine Check.。這通常是硬件出了問題。比如CPU，memory或者I/O總線等等。
Hang --- 一般是在系統(tǒng)運行大量進(jìn)程，導(dǎo)致系統(tǒng)資源不足引起的，系統(tǒng)本身并沒有問題�；蛟S資源過一段時間會釋放。不過有時也有可能是硬件或者系統(tǒng)bug引起。
下面簡單介紹一下HPMC
High Priority Machine Check,是服務(wù)器確�？煽啃缘拇胧┲�。
當(dāng)系統(tǒng)發(fā)現(xiàn)了某些可能會影響數(shù)據(jù)完整性的錯誤時，例如CPU data cache檢驗錯，就會發(fā)出一個HPMC，記錄相關(guān)信息以供分析，并使主機(jī)重起要求對錯誤進(jìn)行糾正。與之相對應(yīng)的是LPMC，Low Priority Machine Check,這樣的錯誤通常比較輕微，例如內(nèi)存發(fā)生single-bit parity error, 內(nèi)存的校錯機(jī)制可以在single-bit error時自動糾錯，所以通常LPMC只是在syslog中與mstm log中加一行日志。
HPMC一般說來與OS無關(guān)，是硬件層面上的。在極個別的情況下，軟件也會引發(fā)HPMC。收集HPMC 在發(fā)生HPMC時，故障發(fā)生時CPU的狀態(tài)等信息會被保存下來。
分析HPMC的第一步就是取得這些信息。
收集HPMC信息的途徑有多種，在PDC菜單中SER->PIM，或是在mstm中對CPU設(shè)備get information，/var/tombstones下的tsXY文件等都可以找到HPMC的記錄，可以根據(jù)當(dāng)時的情況選擇合適的方法。
通常比較方便的辦法是看/var/tombstones/下與系統(tǒng)重起日期吻合的文件，ts99是最新的文件，每次系統(tǒng)重起都會產(chǎn)生一個新的ts99。如果發(fā)現(xiàn)這些文件中沒有相關(guān)的信息，檢查/etc/rc.config.d/pdcinfo中PDCINFO是否設(shè)為1。
分析HPMC
分析HPMC同樣是一種藝術(shù)，需要豐富的知識和經(jīng)驗，上過相關(guān)課程的應(yīng)該記得那些框圖有多復(fù)雜。通常工程師在現(xiàn)場收集相關(guān)的信息交由響應(yīng)中心進(jìn)行處理。但是基于與處理crash dump相同的理由，自已處理一些簡單的case并非不可能。

本文來自ChinaUnix博客，如果查看原文請點：http://blog.chinaunix.net/u/16493/showart_91734.html