- 論壇徽章:
- 1
|
【吐血推薦】網(wǎng)絡(luò)醫(yī)院的故事----連載(ZT)轉(zhuǎn)載結(jié)束,共35篇
[故事之六]服務(wù)器網(wǎng)卡物理功能的失效,導(dǎo)致網(wǎng)絡(luò)癱瘓,僅在小數(shù)據(jù)量時(shí)能夠維持網(wǎng)絡(luò)活性
[癥狀]某銀行向醫(yī)院求助,其西城區(qū)整個(gè)網(wǎng)絡(luò)癱瘓,與電腦中心的聯(lián)絡(luò)基本中斷,只偶爾有部分交易能達(dá)成,但速度很慢,不知何故。由于電腦中心的網(wǎng)管系統(tǒng)也陷于癱瘓狀態(tài),無法觀察任何網(wǎng)上設(shè)備的情況。
[診斷過程]系統(tǒng)故障是凌晨4:30左右出現(xiàn)的(約4小時(shí)前),值班員當(dāng)時(shí)發(fā)現(xiàn)網(wǎng)管系統(tǒng)有報(bào)警信號(hào),20秒鐘后網(wǎng)管機(jī)就基本上處于死機(jī)狀態(tài)了,想進(jìn)一步了解故障,遂將系統(tǒng)重新啟動(dòng)過三次,每次網(wǎng)管機(jī)都在20秒鐘左右失效,而主服務(wù)器和網(wǎng)管機(jī)脫機(jī)自檢均正常。
詢問各營業(yè)所網(wǎng)絡(luò)內(nèi)部工作情況,回答正常,只是交易動(dòng)作無法實(shí)現(xiàn)?梢曰緮喽ü收暇驮谥行牡挠(jì)算機(jī)系統(tǒng)中。中心除了配置有HP公司的網(wǎng)管軟件OpenView外,沒有再配備其它任何網(wǎng)絡(luò)維護(hù)工具。所以一旦網(wǎng)管系統(tǒng)不能正常工作,運(yùn)行維護(hù)人員也就無從下手。東城區(qū)和西城區(qū)的網(wǎng)絡(luò)主服務(wù)器分別在兩個(gè)不同的網(wǎng)段中,之間用交換器連接起來。全城結(jié)算主機(jī)與東城區(qū)主服務(wù)器在同一網(wǎng)段。用F683網(wǎng)絡(luò)測試儀接入東城區(qū)正常工作的網(wǎng)段觀察,發(fā)現(xiàn)Cisco5500交換機(jī)的Plot3Port4(第3插槽的第4端口)有異常流量,而該端口連接的正是西城區(qū)主服務(wù)器和網(wǎng)管系統(tǒng)所在的網(wǎng)段。為更仔細(xì)地觀察此網(wǎng)段的工作情況,將F683網(wǎng)絡(luò)測試儀和協(xié)議診斷器PI接入該網(wǎng)段,測得網(wǎng)絡(luò)持續(xù)流量為97%,其中錯(cuò)誤幀占98%。錯(cuò)誤類型為短幀40%,幀常50~60字節(jié)不等,長幀58%,幀長3000~5200字節(jié)不等,并報(bào)告了出錯(cuò)機(jī)器的Mac地址。依此地址查找對(duì)應(yīng)的機(jī)器,遺憾的是該電腦中心沒有Mac地址備份表(只有IP地址和符號(hào)名對(duì)應(yīng)表)。試著用ICMP的Ping查找網(wǎng)管機(jī)和服務(wù)器,顯示Mac地址對(duì)應(yīng)的是服務(wù)器的IP地址。重裝服務(wù)器網(wǎng)卡驅(qū)動(dòng)程序,無效,用F683測試服務(wù)器端口,協(xié)議顯示Unknown,更換服務(wù)器網(wǎng)卡,重裝驅(qū)動(dòng)程序并設(shè)置響應(yīng)參數(shù),重啟系統(tǒng)即恢復(fù)正常。
[診斷評(píng)點(diǎn)]服務(wù)器網(wǎng)卡已經(jīng)損壞,發(fā)出的數(shù)據(jù)幀錯(cuò)誤率為98%,只有不足1%的數(shù)據(jù)正常。所以網(wǎng)絡(luò)偶爾還有交易可以達(dá)成。我們知道,超長幀有封閉網(wǎng)絡(luò)的作用,主要是引起網(wǎng)絡(luò)速度變慢或網(wǎng)絡(luò)癱瘓,而短幀達(dá)到一定流量則會(huì)對(duì)網(wǎng)絡(luò)設(shè)備的工作協(xié)議造成一定程度的破壞,引起設(shè)備死機(jī)(實(shí)際測試中發(fā)現(xiàn)工作站對(duì)此更敏感些)。網(wǎng)管機(jī)上網(wǎng)時(shí)在收到高錯(cuò)誤流量幀后約20秒鐘即被破壞死機(jī),無法觀測參數(shù)。許多設(shè)備在自檢時(shí)只檢查部分參數(shù)(有些參數(shù)尤其是某些物理參數(shù)無法僅靠自檢來測試),此案例中網(wǎng)管機(jī)和主服務(wù)器自檢表現(xiàn)正常,而實(shí)際上主服務(wù)器的網(wǎng)卡物理功能已經(jīng)失效,但在自檢時(shí)與操作系統(tǒng)的通信協(xié)議能正常工作,靠1%左右的正常幀可以維持極低的網(wǎng)絡(luò)活性。其它網(wǎng)站會(huì)在高流量錯(cuò)誤幀的“轟炸”中陸續(xù)喪生。
[診斷建議]交換機(jī)用來隔離網(wǎng)段和網(wǎng)絡(luò)故障有較好的作用,主服務(wù)器、網(wǎng)管機(jī)等重要網(wǎng)絡(luò)設(shè)備應(yīng)以獨(dú)享交換機(jī)端口為佳,不宜再用共享式集線器連接上其它設(shè)備,這樣可以迅速孤立出故障設(shè)備,減少因網(wǎng)絡(luò)停運(yùn)造成的損失。如果恰好遇到交換器故障,那么根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖就可以迅速定位交換機(jī)的問題,提高維護(hù)工作的時(shí)效性。另外,Mac地址是文檔備案的最重要內(nèi)容之一,除了用于排除網(wǎng)絡(luò)設(shè)備故障有極大方便外,對(duì)于迅速查找我們稱之為“惡意用戶”的非合法上網(wǎng)成員也有很大幫助。 |
|