- 論壇徽章:
- 6
|
本帖最后由 cgweb 于 2015-10-18 21:27 編輯
哪種監(jiān)控工具才是運(yùn)維人的最?lèi)?ài)?
那些指標(biāo)需要監(jiān)控?我能監(jiān)控到什么?能監(jiān)控到何種程度?或許這些問(wèn)題連你自己都難說(shuō)清楚。先看看運(yùn)維兄弟們的現(xiàn)狀。
1.運(yùn)維現(xiàn)狀
傳統(tǒng)企業(yè)的計(jì)算機(jī)運(yùn)維是在用戶(hù)使用計(jì)算機(jī)過(guò)程中發(fā)現(xiàn)故障之后,通知運(yùn)維人員,再由運(yùn)維人員采取相應(yīng)的補(bǔ)救措施。運(yùn)維人員日常大部分時(shí)間和精力都花在處理簡(jiǎn)單且重復(fù)的問(wèn)題上,而且由于故障預(yù)警機(jī)制不完善,往往是故障發(fā)生后才會(huì)進(jìn)行處理,這種情況使運(yùn)維人員的工作經(jīng)常處于被動(dòng)“救火”狀態(tài),這種被動(dòng)的運(yùn)維模式讓IT部門(mén)疲憊不堪。運(yùn)維質(zhì)量如何提高?生產(chǎn)部門(mén)能對(duì)運(yùn)維部有滿(mǎn)意的評(píng)價(jià)嗎?
目前我們?cè)谶\(yùn)維管理過(guò)程中缺少明確的角色定義和責(zé)任劃分,以及自動(dòng)化的集成運(yùn)維管理平臺(tái),以至于問(wèn)題出現(xiàn)后很難快速、準(zhǔn)確地找到原因,而且在處理故障之后也缺乏必要的跟蹤與記錄。
2.隱藏在流量背后的秘密
網(wǎng)絡(luò)接口的通端,流量的大小,已滿(mǎn)足不了目前運(yùn)維故障排除的需要。我們需要將流量分析的更深入,更細(xì)致。
圖1 傳統(tǒng)流量監(jiān)控工具看表象
很多漏洞利用攻擊、ShellCode攻擊都混雜著正常流量進(jìn)入企業(yè)網(wǎng)層層防護(hù)關(guān)卡。要想知道每個(gè)數(shù)據(jù)包中攜帶了什么內(nèi)容,普通的攝像頭已經(jīng)失效,需要更強(qiáng)大的X透視相機(jī)-進(jìn)行協(xié)議分析,只有準(zhǔn)確理解事物的本質(zhì),才能對(duì)癥下藥,Shellcode攻擊(下圖是shellcode和botnet的實(shí)例)和各種蠕蟲(chóng)也是如此。wKioL1YJRA-xRWn9AAkbObm-8fM219.jpg
3.大數(shù)據(jù)時(shí)代下安全運(yùn)維的新挑戰(zhàn)
運(yùn)維工程師們?cè)诖髷?shù)據(jù)時(shí)代,下面對(duì)大量網(wǎng)絡(luò)安全事件,若沒(méi)有有效工具是無(wú)法完成分析工作,他們往往面對(duì)如下挑戰(zhàn):
1) 每天出現(xiàn)巨大數(shù)量的安全報(bào)警,管理員很難對(duì)這些報(bào)警做出響應(yīng)。
2) 誤報(bào)嚴(yán)重,管理員無(wú)法準(zhǔn)確判斷故障。
3) 大量重復(fù)、零散而沒(méi)有規(guī)律的報(bào)警,黑客的一次攻擊行動(dòng),會(huì)在不同階段觸發(fā)不同安全設(shè)備的告警,這樣導(dǎo)致報(bào)警數(shù)據(jù)之間在時(shí)間和空間上存在大量重復(fù)數(shù)據(jù),如果不實(shí)現(xiàn)安全事件的關(guān)聯(lián)處理,就無(wú)法有效的提高告警質(zhì)量。
當(dāng)出現(xiàn)這些問(wèn)題的部分原因是企業(yè)缺乏事件監(jiān)控和診斷等運(yùn)維工具,因?yàn)槿绻麤](méi)有高效的管理工具支持,就很難讓故障事件得到主動(dòng)、快速處理。市面上有很多運(yùn)維監(jiān)控工具,例如商業(yè)版的Cisco Works 2000、Solarwinds、ManageEngine以及專(zhuān)注故障監(jiān)控的WhatsUp,在開(kāi)源領(lǐng)域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。由于它們彼此之間沒(méi)有聯(lián)系,即便是你部署了這些工具,很多運(yùn)維人員并沒(méi)有從中真正解脫出來(lái),原因在于目前的技術(shù)雖然能夠獲取計(jì)算機(jī)設(shè)備、服務(wù)器、網(wǎng)絡(luò)流量,甚至數(shù)據(jù)庫(kù)的警告信息,但成千上萬(wàn)條警告信息堆積在一起,讓人根本沒(méi)辦法判斷問(wèn)題的根源在哪里,缺乏對(duì)信息進(jìn)行篩選、數(shù)據(jù)挖掘的能力,其實(shí)我們并不缺少工具,商業(yè)的也好,開(kāi)源的也吧,一抓一大把,為什么還是用不好?真正缺少的是分析數(shù)據(jù)的智能化。
另外我們的查看各種監(jiān)控系統(tǒng)需要多次登錄,查看繁多的界面,更新管理絕大多數(shù)工作都是手工操作,即使一個(gè)簡(jiǎn)單的系統(tǒng)變更或更新,往往需要運(yùn)維人員逐一登錄系統(tǒng),當(dāng)設(shè)備數(shù)量達(dá)到成百上千時(shí),其工作量之大可想而知。而這樣的變更和檢查操作在IT 運(yùn)維中往往每天都在進(jìn)行,這無(wú)疑會(huì)占用大量的運(yùn)維資源。因此,運(yùn)維工作人員需要統(tǒng)一的集成安全管理平臺(tái)已迫在眉睫。
過(guò)去僅靠幾個(gè)“技術(shù)大拿”來(lái)包打天下已不能滿(mǎn)足要求,企業(yè)需要一種安全的運(yùn)維平臺(tái),滿(mǎn)足專(zhuān)業(yè)化、標(biāo)準(zhǔn)化和流程化的需要來(lái)實(shí)現(xiàn)運(yùn)維工作的自動(dòng)化管理。因?yàn)橥ㄟ^(guò)集成監(jiān)控系統(tǒng)能及時(shí)發(fā)現(xiàn)故障隱患,主動(dòng)的告訴用戶(hù)需要關(guān)注的資源,感知網(wǎng)絡(luò)威脅,把故障消除在萌芽狀態(tài)。這極大降低了運(yùn)維人員的工作負(fù)擔(dān),最大限度地減少維修時(shí)間,提高服務(wù)質(zhì)量。
4.人工整合開(kāi)源工具
既然找不到合適的,我們就把常用的開(kāi)源工具集成到一個(gè)Linux平臺(tái),這不是就實(shí)現(xiàn)統(tǒng)一管理平臺(tái)了嗎?
人工整合開(kāi)源監(jiān)控系統(tǒng)的難點(diǎn):
1. 軟件和依賴(lài)依賴(lài)問(wèn)題難以解決。
2. 各子系統(tǒng)界面重復(fù)驗(yàn)證和界面風(fēng)格問(wèn)題。
3. 各子系統(tǒng)數(shù)據(jù)無(wú)法共享。
4. 無(wú)法實(shí)現(xiàn)數(shù)據(jù)之間關(guān)聯(lián)分析。
5. 無(wú)法生成統(tǒng)一格式的報(bào)表。
6. 缺乏統(tǒng)一的儀表板來(lái)展示重要監(jiān)控信息。
7. 無(wú)法對(duì)網(wǎng)絡(luò)風(fēng)險(xiǎn)進(jìn)行檢測(cè)。
8. 各子系統(tǒng)維護(hù)難度,增大了運(yùn)維成本。
實(shí)踐中發(fā)現(xiàn),這種方案首先遇到了性能問(wèn)題,一些腳本周期性消耗了較多的CPU和I/O資源,所以無(wú)法做到實(shí)時(shí)數(shù)據(jù)分析。試想有多少且能投入大量人力、時(shí)間去開(kāi)發(fā)一個(gè)未知的監(jiān)控平臺(tái)?
5.集成安全運(yùn)維平臺(tái)的選擇
一個(gè)好的安全運(yùn)維平臺(tái)需要將事件與IT 流程相關(guān)聯(lián),一旦監(jiān)控系統(tǒng)發(fā)現(xiàn)性能超標(biāo)或出現(xiàn)宕機(jī)現(xiàn)象,就會(huì)觸發(fā)相關(guān)事件以及事先定義好的流程,自動(dòng)啟動(dòng)故障響應(yīng)和恢復(fù)機(jī)制。還需要能夠篩選出運(yùn)維人員完成日常的重復(fù)性工作,提高運(yùn)維效率。要實(shí)現(xiàn)這些功能都是常規(guī)監(jiān)控軟件Cacti、Zabbix所無(wú)法實(shí)現(xiàn)。
同時(shí),還要求能夠預(yù)測(cè)網(wǎng)絡(luò)蠕蟲(chóng)威脅,在故障發(fā)生前能夠報(bào)警,讓運(yùn)維人員把故障消除在萌芽狀態(tài),將所產(chǎn)生損失減到最低。總的來(lái)說(shuō)運(yùn)維人需要能夠在一個(gè)平臺(tái)中實(shí)現(xiàn)資產(chǎn)管理、分布式部署、漏洞掃描、風(fēng)險(xiǎn)評(píng)估、策略管理、實(shí)時(shí)流量監(jiān)控、異常流量分析、攻擊檢測(cè)報(bào)警、關(guān)聯(lián)分析、風(fēng)險(xiǎn)計(jì)算、安全事件告警、事件聚合、日志收集與分析、知識(shí)庫(kù)、時(shí)間線(xiàn)分析、統(tǒng)一報(bào)表輸出、多用戶(hù)權(quán)限管理的功能,這種集成開(kāi)源工具到底有沒(méi)有?它去哪兒啦?
目前市面上有兩種產(chǎn)品可滿(mǎn)足這樣的要求,目前市面上的SIEM產(chǎn)品主要有HP Arcsight(后臺(tái)掛Oracle庫(kù))、IBM Security QRadar SIEM和Alienvault的OSSIM USM,現(xiàn)在的問(wèn)題是并不缺少商業(yè)SIEM解決方案,在開(kāi)源軟件中OSSIM到是最佳選擇。
很多人只是膚淺的認(rèn)為OSSIM只是將一些開(kāi)源工具集成到一個(gè)平臺(tái),在OSSIM中顛覆性創(chuàng)新主要在易用(容易安裝、部署,容易使用,幾乎不用自己寫(xiě)腳本)、分布式監(jiān)控系統(tǒng)、響應(yīng)威脅(OTX)、關(guān)聯(lián)分析引擎、可視化攻擊展示等。
Alienvault分為開(kāi)源OSSIM和商業(yè)版USM兩種,通過(guò)這一集成監(jiān)控工具實(shí)現(xiàn)對(duì)用戶(hù)操作規(guī)范的約束和對(duì)計(jì)算機(jī)資源進(jìn)行準(zhǔn)實(shí)時(shí)監(jiān)控,包括服務(wù)器、數(shù)據(jù)庫(kù)、中間件、存儲(chǔ)備份、網(wǎng)絡(luò)、安全、機(jī)房、業(yè)務(wù)應(yīng)用等內(nèi)容,通過(guò)自動(dòng)監(jiān)控管理平臺(tái)實(shí)現(xiàn)故障或問(wèn)題綜合處理和集中管理。
如果你即不想購(gòu)買(mǎi)昂貴的商業(yè)軟件,又不愿意投入大量精力進(jìn)行開(kāi)發(fā),那么實(shí)現(xiàn)集成安全管理平臺(tái)OSSIM就是唯一的選擇,今天我刻苦鉆研的OSSIM項(xiàng)目,很可能是你明天要做的事。好了,我們看看OSSIM能夠?yàn)槟銕?lái)怎樣的體驗(yàn)? 看完后,有何感言?如果你想系統(tǒng)學(xué)習(xí)OSSIM,請(qǐng)關(guān)注今年年底即將出版的第四本專(zhuān)著《開(kāi)源安全運(yùn)維平臺(tái)--OSSIM最佳實(shí)踐》。
|
|