- 論壇徽章:
- 1
|
【吐血推薦】網(wǎng)絡(luò)醫(yī)院的故事----連載(ZT)轉(zhuǎn)載結(jié)束,共35篇
[故事之十五]私自運(yùn)行Proxy發(fā)生沖突,服務(wù)器響應(yīng)速度“變慢”,網(wǎng)蟲太“勤快”
[癥狀]某市工商局信息中心今日向網(wǎng)絡(luò)醫(yī)院“報(bào)案”,報(bào)告其關(guān)鍵的企業(yè)數(shù)據(jù)服務(wù)器經(jīng)常出現(xiàn)“阻塞”,起因是分布在各地的各個(gè)業(yè)務(wù)受理局、所等的工作人員時(shí)常向信息中心抱怨在進(jìn)行企業(yè)數(shù)據(jù)調(diào)用、核查和進(jìn)行新企業(yè)登記操作時(shí)經(jīng)常遇到“梗阻”,速度變慢或業(yè)務(wù)出現(xiàn)暫時(shí)性的停頓的現(xiàn)象。由于故障現(xiàn)象不是持續(xù)存在,雖然檢查過多次,也殺過多次“毒”,更換速度更快的服務(wù)器后情況好轉(zhuǎn),但未從根本上能解決問題,始終沒有找到真正的“病根”所在。要求幫助查找“元兇”。
走進(jìn)該工商信息中心嶄新明亮的機(jī)房,可以看到正面的墻上有一幅巨大的網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)涫疽鈭D,上面非常清楚的標(biāo)明了各種網(wǎng)上設(shè)備和網(wǎng)絡(luò)設(shè)備的型號、名稱、位置、速度、鏈路類型和連接關(guān)系等等。初步感覺這樣的網(wǎng)絡(luò)器管理水平應(yīng)該是不錯(cuò)的。
但,經(jīng)過了解獲知,目前實(shí)際的網(wǎng)絡(luò)的結(jié)構(gòu)比較特殊,與拓?fù)鋱D上的結(jié)構(gòu)有較大區(qū)別:用于業(yè)務(wù)網(wǎng)的大部分機(jī)器還設(shè)在舊的信息中心機(jī)房中,只有企業(yè)數(shù)據(jù)服務(wù)器等關(guān)鍵設(shè)備安裝在新工商大廈的信息中心機(jī)房中,且同辦公網(wǎng)連通。新大廈和舊信息中心相距約2000米,中間通過光纜和路由器連接起來,并在辦公網(wǎng)側(cè)設(shè)置了防火墻。辦公網(wǎng)的多數(shù)用戶都可以通過WAN鏈路訪問internet國際互聯(lián)網(wǎng)。信息中心主任對此的解釋是:按工程規(guī)劃的要求,需要把原信息中心機(jī)房的全部設(shè)備和人員搬遷到新大廈的信息中心機(jī)房,但因發(fā)現(xiàn)新大廈存在建筑質(zhì)量問題,兩個(gè)月前只搬遷了少部分設(shè)備和絕大部分的人員。為了不影響業(yè)務(wù),在對設(shè)備采取臨時(shí)性的重新布局后即投入了運(yùn)行。工作狀況一直正常。多數(shù)業(yè)務(wù)設(shè)備還留在了舊機(jī)房中,由2名留守人員負(fù)責(zé)管理。大約一個(gè)月前開始出現(xiàn)故障征兆。
該信息中心負(fù)責(zé)下轄8個(gè)工商分局,76個(gè)工商所的網(wǎng)絡(luò)連接和業(yè)務(wù)保障工作。局和分局之間用幀中繼鏈路連接,工商所和分局之間用DDN、ISDN連接,少數(shù)用撥號方式連接。業(yè)務(wù)網(wǎng)與辦公網(wǎng)之間用防火墻隔離。業(yè)務(wù)網(wǎng)中的用戶除分局的少數(shù)用戶外按設(shè)計(jì)要求均不能上互聯(lián)網(wǎng)。
[診斷過程]從安裝在辦公網(wǎng)中的網(wǎng)管系統(tǒng)上觀察,企業(yè)數(shù)據(jù)服務(wù)器流量為28%,屬正常。就近從辦公網(wǎng)用網(wǎng)絡(luò)測試儀F683對服務(wù)器進(jìn)行連通性測試,損失率為0%。這說明至少在此時(shí)此刻服務(wù)器是工作狀態(tài)是不錯(cuò)的。用網(wǎng)絡(luò)助理(網(wǎng)絡(luò)一點(diǎn)通)對服務(wù)器發(fā)送10%的流量,觀察服務(wù)器的使用情況。從數(shù)據(jù)包交換對話矩陣中發(fā)現(xiàn),服務(wù)器對辦公網(wǎng)中的用戶均有響應(yīng),而對原業(yè)務(wù)網(wǎng)中的用戶則有少數(shù)幾個(gè)“不響應(yīng)”的記錄。由此可以推斷故障原因絕大多數(shù)可能還在原業(yè)務(wù)網(wǎng)中。
將網(wǎng)絡(luò)測試儀移動(dòng)到信息中心舊樓中進(jìn)行測試,結(jié)果如下:網(wǎng)絡(luò)流量為45%(略高),碰撞率為3%,錯(cuò)誤率0%,廣播7%(略高)?傮w基本正常。進(jìn)而觀察網(wǎng)絡(luò)協(xié)議的分布狀態(tài),基本正常。查看數(shù)據(jù)包對話矩陣,則發(fā)現(xiàn)凡是對企業(yè)數(shù)據(jù)服務(wù)器的訪問數(shù)據(jù)包均有部分“不響應(yīng)”記錄。該記錄涉及面很廣,幾乎40%的工作站均有牽連。
為了驗(yàn)證是否是數(shù)據(jù)鏈路的問題,進(jìn)行了ICMP Ping和ICMP Monitor測試,前者報(bào)告有兩個(gè)MAC地址響應(yīng),后者則報(bào)告記錄到大量的目標(biāo)不可達(dá)、重定向、擁塞告警等數(shù)據(jù)幀。這說明網(wǎng)絡(luò)的數(shù)據(jù)鏈路中有重復(fù)的IP地址,而且網(wǎng)絡(luò)對數(shù)據(jù)幀的路由運(yùn)算也存在問題。啟動(dòng)網(wǎng)絡(luò)測試儀的網(wǎng)段自動(dòng)搜尋功能,自動(dòng)查詢網(wǎng)絡(luò)連接結(jié)構(gòu),結(jié)果發(fā)現(xiàn)有多余路由解析操作(Proxy),但沒有發(fā)現(xiàn)重復(fù)的IP地址(這說明重復(fù)的IP地址不在該網(wǎng)段,而存在于數(shù)據(jù)訪問通道中)。
因網(wǎng)管人員沒有MAC地址備份文檔,故建議將舊樓中的所有本地工作站關(guān)機(jī),此時(shí)網(wǎng)絡(luò)立即恢復(fù)正常。為確定與服務(wù)器重名的工作站,再分批打開所有工作站,結(jié)果發(fā)現(xiàn)留守人員的2臺(tái)機(jī)器中有1臺(tái)IP地址與企業(yè)數(shù)據(jù)服務(wù)器重名。進(jìn)一步檢查該工作站,還發(fā)現(xiàn)其私自安裝并運(yùn)行了Proxy代理,與網(wǎng)段搜索的結(jié)構(gòu)一致。
[診斷評點(diǎn)]故障原因有三。原因之一:是IP地址重復(fù),原因之二:是運(yùn)行非法路由代理。當(dāng)業(yè)務(wù)網(wǎng)用戶要求進(jìn)一步的地址解析分析時(shí),留守機(jī)與數(shù)據(jù)服務(wù)器發(fā)生沖突,多數(shù)的數(shù)據(jù)流向發(fā)生混亂(注意,此時(shí)的數(shù)據(jù)幀結(jié)構(gòu)仍正常),使用戶的訪問發(fā)生“梗阻”。應(yīng)用軟件則經(jīng)常要求重新聯(lián)絡(luò)和重傳數(shù)據(jù),導(dǎo)致流量偏高、業(yè)務(wù)流程速度變慢。由于沖突基本限制在原信息中心網(wǎng)絡(luò)中,所以企業(yè)數(shù)據(jù)服務(wù)器的流量顯示正常!網(wǎng)管系統(tǒng)也無錯(cuò)誤數(shù)據(jù)包報(bào)告!原因之三:對留守人員的管理出現(xiàn)真空。留守人員因“無聊”(員工自述)而渴望“越權(quán)”連接互聯(lián)網(wǎng),并由此開始迅速成為一名“白日網(wǎng)蟲”,進(jìn)而干擾正常業(yè)務(wù)流程。由于其操作并不一定持續(xù)存在,從而導(dǎo)致問題出現(xiàn)一個(gè)多月不能解決。其實(shí),辦公網(wǎng)中的互聯(lián)網(wǎng)用戶也會(huì)或多或少地受到影響,只不過因白天用戶的使用頻率低未曾察覺而已。
[診斷建議]網(wǎng)絡(luò)管理的漏洞大多數(shù)來自于內(nèi)部管理人員,建立嚴(yán)格的內(nèi)部管理機(jī)制是非常必要的。同時(shí),建議將MAC地址的備份列入必備文檔。另外,每日對網(wǎng)絡(luò)進(jìn)行狀態(tài)自動(dòng)搜尋會(huì)有助于很快發(fā)現(xiàn)并清除非法用戶。
健康的網(wǎng)絡(luò)維護(hù)方案中其實(shí)早就有關(guān)于定期測試(包括每日測試和每日循環(huán)測試)的項(xiàng)目,只要堅(jiān)持每日必要的測試和檢查,就可以保證99.9%的網(wǎng)絡(luò)不會(huì)有超過2天而解決不了的嚴(yán)重網(wǎng)絡(luò)問題存在。 |
|