- 論壇徽章:
- 0
|
本帖最后由 微信18930807463 于 2015-02-09 10:15 編輯
國內(nèi)外誤操作案例:
韓國農(nóng)協(xié)銀行
時(shí)間:2011.4.12
影響時(shí)間:大于3天
詳細(xì)介紹:位列韓國四大銀行之一的韓國農(nóng)協(xié)銀行電腦網(wǎng)絡(luò)出現(xiàn)故障,導(dǎo)致客戶無法辦理業(yè)務(wù)。系統(tǒng)故障一直持續(xù)了3天,直到4月15日才恢復(fù)部分服務(wù),而有些服務(wù)直到4月18日仍然沒有恢復(fù),以至于銀行不得不采用傳統(tǒng)的手寫交易單的方式進(jìn)行服務(wù)。
事故原因:從第三方代維人員所持有的筆記本上對(duì)銀行核心系統(tǒng)下達(dá)了一條rm.dd命令,該命令將服務(wù)器上所有的文件全部刪除,連災(zāi)備服務(wù)器都未能幸免。
全國DNS污染
時(shí)間:2014.1.21
影響時(shí)間:12小時(shí)以內(nèi)
詳細(xì)介紹: 2014年1月21日下午15點(diǎn)中國境內(nèi)發(fā)生DNS解析服務(wù)故障(主要原因是DNS污染或DNS劫持),導(dǎo)致百度等多家網(wǎng)站長(zhǎng)達(dá)幾個(gè)小時(shí)之內(nèi)無法訪問。其指向的IP地址為65.49.2.178,所以該IP又被冠名為65.49.2.178事件。有媒體稱是國內(nèi)組織或者是黑客攻擊導(dǎo)致的,但歷史沒有一次根域名服務(wù)器被攻破。網(wǎng)絡(luò)運(yùn)營商出現(xiàn)故障可能性大些,但仍都無確切證據(jù)。
事故原因: 根據(jù)互聯(lián)網(wǎng)上相關(guān)消息,并通過對(duì)DNS的TCP查詢結(jié)果進(jìn)行分析,懷疑是GreatFirewall管理員的誤操作導(dǎo)致部分DNS被污染,導(dǎo)致國內(nèi)的DNS服務(wù)器在同步時(shí)同步了被污染的A記錄,從而導(dǎo)致國內(nèi)部分網(wǎng)站不能正常訪問。
PPS&愛奇藝員工安全意識(shí)不足,導(dǎo)致內(nèi)網(wǎng)滲透
時(shí)間:2014.02
影響范圍:PPS&愛奇藝內(nèi)部網(wǎng)絡(luò)
詳細(xì)介紹:PPS某員工由于操作不當(dāng),在谷歌源碼托管上設(shè)置未授權(quán)訪問,導(dǎo)致該員工接手的所有項(xiàng)目代碼以及相關(guān)帳戶信息泄露導(dǎo)致攻擊者直接獲取到該企業(yè)的內(nèi)網(wǎng)服務(wù)器權(quán)限。
事故原因:由于員工安全意識(shí)不足,導(dǎo)致企業(yè)內(nèi)部的網(wǎng)絡(luò)信息在公網(wǎng)上可以任意訪問,為攻擊者提供了可趁之機(jī) 。
國內(nèi)外誤操作案例綜合分析:
在生產(chǎn)環(huán)境中凡是對(duì)業(yè)務(wù)產(chǎn)生影響的的操作,都應(yīng)該現(xiàn)在測(cè)試環(huán)境中進(jìn)行一次測(cè),試之后方可在生產(chǎn)環(huán)境中執(zhí)行,若環(huán)境不允許則需要經(jīng)過謹(jǐn)慎思考之后方可進(jìn)行操作。
對(duì)于一些刪除、修改操作應(yīng)該有權(quán)限限制,并應(yīng)該增加提示信息。
加強(qiáng)員工安全意識(shí)普及,對(duì)于不同部門的員工,對(duì)于服務(wù)器應(yīng)該有不同的權(quán)限,最堅(jiān)固的堡壘往往在內(nèi)部被攻破。
安全是一個(gè)整體,任何環(huán)節(jié)出了問題,其影響范圍都是不可估量的,并且問題最容易出在沒有注意到的點(diǎn)上面。
安全運(yùn)維建議:
一、 變更要能回滾、先在同樣的環(huán)境測(cè)試過
從某種意義上講、運(yùn)維是一門經(jīng)驗(yàn)的學(xué)科、是一門試錯(cuò)的學(xué)科。沒有做過的東西、總是會(huì)給你不期而遇的痛擊,請(qǐng)保護(hù)現(xiàn)場(chǎng),讓變更有回頭的機(jī)會(huì)。
二、對(duì)**性的操作謹(jǐn)慎小心
什么是**性的操作?
比如:對(duì) Oracle 而言:truncate table_name、delete table_name、drop table_name,這些語句執(zhí)行起來輕松簡(jiǎn)單也愜意極了、但記。〖幢銛(shù)據(jù)可被回滾、代價(jià)也是非常大!
對(duì) Linux 而言:rm -r 所有當(dāng)前及其子目錄的所有數(shù)據(jù)都將被刪除。經(jīng)歷過這種故障的人、大多會(huì)給 rm 上個(gè)別名
alias rm='rm -i'
同理、cp 和 mv 也可以有同樣的選項(xiàng):
alias cp='cp -i'
alias mv='mv -i'
三、設(shè)置好命令提示
在操作之前、先理清你所在的是主庫、備庫?當(dāng)前目錄?哪個(gè) schema?session?時(shí)間?
比如:
對(duì) Oracle 來講:
[plain] view plaincopy
idle> set sqlprompt 'RAC-node1-primary@10g>>'
RAC-node1-primary@10g>>
當(dāng)然、你也可以在 glogin.sql 里面設(shè)置。
•對(duì)于 Linux 而言、bash 環(huán)境的提醒可設(shè)置 PS1 來知道當(dāng)前目錄、登陸用戶名和主機(jī)信息等;
•對(duì) PS1 更多理解、請(qǐng)見:man PS1
四、備份并驗(yàn)證備份的有效性
人非圣賢、豈能無過?是機(jī)器總有計(jì)劃內(nèi)或計(jì)劃外崩潰的一天。怎么辦?備份。!備份的學(xué)問很大、按照不同的維度可以分:冷備和熱備;實(shí)時(shí)和非實(shí)時(shí);物理和邏輯。OLTP 7*24 在線業(yè)務(wù)、DB 就需要有實(shí)時(shí)熱備。這樣就可以了嗎?
如果開發(fā)人員的一個(gè)不帶任何條件的 delete 誤刪所有數(shù)據(jù),此時(shí)你除了實(shí)時(shí)、還需要有非實(shí)時(shí)的備份、把 DB 從邏輯錯(cuò)誤中恢復(fù)出來。
備份有了可以高忱無憂了嗎?不行!尚須驗(yàn)證備份的有效性。一個(gè)總有那么幾次、備份無法保證 100% 恢復(fù),簡(jiǎn)單的驗(yàn)證就是找個(gè)空庫恢復(fù)出來。
五、對(duì)生產(chǎn)環(huán)境永保敬畏之心
會(huì)計(jì)人員在從業(yè)之前、都有個(gè)職業(yè)操守的訓(xùn)練。同理、這也應(yīng)該是運(yùn)維人員進(jìn)入行業(yè)首先需要具備的素養(yǎng)。
比如:
•于 Oracle 而言、你可以跑一個(gè) RDA 巡檢 DB 的健康狀況;
•于 Linux 而言、是否有 password aging、隔離外網(wǎng)等。
六、交接和休假最容易出故障、變更請(qǐng)謹(jǐn)慎
•接手別人的工作要一而再,再而三的確認(rèn)變更方案。請(qǐng)教人并不見得就是能力不行的表現(xiàn);
•休假前最好各種可以做好的事情,最好能夠準(zhǔn)備一份文檔,指明在什么情況下怎么做和聯(lián)系哪些人;
•在別人放假的時(shí)候接手工作,“能拖則拖”,實(shí)在需要執(zhí)行:必須不厭其煩的跟原運(yùn)維者確認(rèn)各個(gè)操作細(xì)節(jié)。
七、搭建報(bào)警、及時(shí)獲取出錯(cuò)信息;搭建性能監(jiān)控、預(yù)測(cè)趨勢(shì)
運(yùn)維人員賴于生存的工具就是報(bào)警和監(jiān)控。
•報(bào)警可以讓你及時(shí)知道系統(tǒng)出現(xiàn)了什么異常、以便及時(shí)跟進(jìn)、把故障扼殺于搖籃;
•監(jiān)控可以讓你了解系統(tǒng)的歷史性能信息、以歷為鑒、可以知興替嘛、早做優(yōu)化。
報(bào)警和優(yōu)化是衣寬帶水的好兄弟、相鋪相成、互相促進(jìn)。
八、自動(dòng)卻換需謹(jǐn)慎
比如:Oracle 存儲(chǔ)級(jí)的HA方案:Data Guard,主庫提交了一筆訂單,結(jié)果發(fā)生了 switchover,這筆訂單沒有同步到備庫,那么賣家損失了一個(gè)銷售單、對(duì)客戶、對(duì)公司都是損失。
九、仔細(xì)一點(diǎn),檢查,檢查,再檢查
具體操作可參考:
① 在做一個(gè)變更的時(shí)候,會(huì)先提前一兩周發(fā)送郵件并電話手機(jī)通知相關(guān)人
② 在測(cè)試機(jī)上寫好腳本,召集大家 review 操作步驟和腳本
③ 測(cè)試完成以后拷貝到生產(chǎn)環(huán)境
④ 登錄對(duì)應(yīng)機(jī)器,“打開,關(guān)閉,打開,關(guān)閉”該腳本
⑤ 跟相關(guān)人員再次確認(rèn)執(zhí)行的操作,順序,時(shí)間點(diǎn),可能的影響和回滾是否都準(zhǔn)備好了
⑥ 執(zhí)行前還要退出這個(gè)機(jī)器,然后再登錄進(jìn)去,“打開,關(guān)閉”腳本
⑦ 最后才在后臺(tái)運(yùn)行腳本,同時(shí)在另外一個(gè)窗口登錄著,隨時(shí)ps和查看結(jié)果輸出
十、盡量簡(jiǎn)單
•能夠使用系統(tǒng)內(nèi)置命令的話,就不用考慮其他要專門下載安裝的軟件了
•腳本本身就能完成的功能,就沒有必要專門找一個(gè)功能豐富的軟件來做
•Linux本身自帶的字符界面比那些復(fù)雜的圖形界面要簡(jiǎn)潔方便
十一、對(duì)用戶賬號(hào)使用行為進(jìn)行日志記錄及審計(jì)
系統(tǒng)服務(wù)器側(cè)應(yīng)根據(jù)賬號(hào),對(duì)用戶的使用行為進(jìn)行詳細(xì)的日志記錄和審計(jì),通過上述因素的日志記錄,進(jìn)行階段性的審計(jì)(時(shí)間間隔應(yīng)該比較。,從而做到發(fā)現(xiàn)用戶賬號(hào)的盜用、惡意使用等問題,盡早進(jìn)行處理。
十二、負(fù)載均衡及負(fù)載保護(hù)機(jī)制
系統(tǒng)面臨著巨大的服務(wù)量,服務(wù)器端的設(shè)備基本上都需要有多臺(tái)服務(wù)器進(jìn)行業(yè)務(wù)分擔(dān),這樣才能提高性能,避免處理瓶頸的出現(xiàn),因此,需要采用合理的負(fù)載均衡和負(fù)載保護(hù)機(jī)制:
•對(duì)各服務(wù)器的業(yè)務(wù)流量進(jìn)行有效地分擔(dān),可按照Round Robin、LRU等方式來進(jìn)行負(fù)載均衡
•負(fù)載保護(hù)機(jī)制需要實(shí)時(shí)地對(duì)每臺(tái)服務(wù)器的CPU資源、內(nèi)存資源等進(jìn)行評(píng)估,如果一旦超過設(shè)定的閾值(80%或者以上),將馬上進(jìn)行過載保護(hù),從而保證服務(wù)器自身的安全
十三、管理規(guī)范化
系統(tǒng)功能復(fù)雜,業(yè)務(wù)數(shù)據(jù)敏感,保密級(jí)別比較高,并且對(duì)不同管理人員的權(quán)限、角色要求都不盡相同,為了保證安全管理,避免內(nèi)部管理中出現(xiàn)安全問題,建議作如下要求:
•嚴(yán)格劃分管理人員的角色及其對(duì)應(yīng)的權(quán)限,避免一權(quán)獨(dú)攬,引起安全隱患;
•作好服務(wù)器機(jī)房的物理?xiàng)l件管理,避免電子泄露、避免由于靜電等引起的故障;
•應(yīng)作好服務(wù)器管理員的帳號(hào)/口令管理,要求使用強(qiáng)口令,避免內(nèi)部人員盜用;
•作好服務(wù)器的端口最小化管理,避免內(nèi)部人員掃描得出服務(wù)器的不必要的開放端口及其漏洞,實(shí)行內(nèi)部攻擊;
•作好服務(wù)器系統(tǒng)軟件、應(yīng)用軟件的日志管理和補(bǔ)丁管理工作,便于審計(jì)和避免由于安全漏洞而遭受到內(nèi)部人員的攻擊;
•根據(jù)業(yè)務(wù)和數(shù)據(jù)的機(jī)密等級(jí)需求,嚴(yán)格劃分服務(wù)器的安全域,避免信息泄露。
十四、合理的子網(wǎng)劃分及流量分割
系統(tǒng)服務(wù)器側(cè)包括大量的服務(wù)器類型,包括數(shù)據(jù)庫服務(wù)器、Web服務(wù)器、FTP服務(wù)器、郵件服務(wù)器等,為了避免由于惡意流量造成的某種服務(wù)器崩潰,而引起的攻擊后果擴(kuò)散,并最終導(dǎo)致其他服務(wù)器也發(fā)生“雪崩效應(yīng)”,則需要通過子網(wǎng)隔離(比如VLAN劃分)、DMZ區(qū)域的設(shè)定等方式來將這些服務(wù)器放置在不同的安全域當(dāng)中,做到流量和數(shù)據(jù)的安全隔離,從而將服務(wù)器端在遭受攻擊后對(duì)整個(gè)業(yè)務(wù)系統(tǒng)及其他內(nèi)網(wǎng)資源和數(shù)據(jù)造成的影響盡量控制在最低的范圍內(nèi)。
十五、加強(qiáng)員工安全意識(shí)教育培訓(xùn)
經(jīng)常開展多種形式(會(huì)議、視頻、手冊(cè)、宣傳冊(cè)等)的員工安全意識(shí)教育培訓(xùn),內(nèi)容例如:
關(guān)于企業(yè)的信息應(yīng)該只在企業(yè)內(nèi)部或者部門內(nèi)部流通,不應(yīng)再互聯(lián)網(wǎng)上存放,極端情況下需要使用互聯(lián)網(wǎng)的情況下也需要對(duì)數(shù)據(jù)進(jìn)行加密,或者設(shè)置訪問權(quán)限;個(gè)人密碼妥善保管,有時(shí)候我們?cè)O(shè)置了隨機(jī)高強(qiáng)度密碼,卻因?yàn)殡y記憶寫在一張紙條上,然后貼在電腦前或者壓在鍵盤下,這種事情應(yīng)該是需要被禁止的。
|
|