- 論壇徽章:
- 3
|
我們需要付出更多的努力,用保護隱私的價值觀培育新一代的計算機科學(xué)家和工程師,并跟他們一起開發(fā)出設(shè)計大數(shù)據(jù)系統(tǒng)的工具,從而讓大數(shù)據(jù)系統(tǒng)能遵循普遍認可的隱私準則。
企業(yè)定期收集幾TB與安全相關(guān)的數(shù)據(jù)(比如網(wǎng)絡(luò)事件、軟件應(yīng)用程序事件,以及人員活動事件), 用來作合規(guī)性和事后取證分析。據(jù)估計,不同規(guī)模的大型企業(yè)每天發(fā)生的事件在上百億到上千億之間。隨著企業(yè)啟用的事件記錄源越來越多,雇用的員工越來越多, 部署的設(shè)備越來越多,運行的軟件越來越多,這些數(shù)值還會繼續(xù)增長。不幸的是,這種數(shù)據(jù)量和多樣性會迅速變成駱駝背上的稻草,F(xiàn)有分析技術(shù)無法應(yīng)對大規(guī)模數(shù) 據(jù),通常都會產(chǎn)生很多誤報,因此功效被削弱了。隨著企業(yè)向云架構(gòu)遷移,并且收集的數(shù)據(jù)越來越多,這個問題進一步惡化了。
分 析—信息的大規(guī)模分析和處理—在幾個領(lǐng)域用的熱火朝天,并且最近這些年,因其承諾以前所未有的規(guī)模高效地分析和關(guān)聯(lián)與安全相關(guān)的數(shù)據(jù),也引起了安全社區(qū)的 興趣。然而,對安全而言,傳統(tǒng)數(shù)據(jù)分析和大數(shù)據(jù)分析之間的差異并不是那么直觀。畢竟信息安全社區(qū)十多年來一直在利用網(wǎng)絡(luò)流量、系統(tǒng)日志和其它信息源的分析 甄別威脅,檢測惡意活動,而這些傳統(tǒng)方式跟大數(shù)據(jù)有何不同還不清楚。
為了解決這個問題,還有其它問題,云安全聯(lián)盟(CSA)在2012年成立了大數(shù)據(jù)工作組。這個工作組由來自業(yè)內(nèi)的和院校的志愿者組成,共同確定這一領(lǐng)域內(nèi)的原則、綱領(lǐng)及所面臨的挑戰(zhàn)。它最新的報告, “安全智能中的大數(shù)據(jù)分析”,重點探討了大數(shù)據(jù)在安全領(lǐng)域中的作用。在這份報告中,詳細闡述了利用大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的新工具的介入及廣泛使用如何改變了安全分析領(lǐng)域。它還羅列了一些跟傳統(tǒng)分析的基本差異,并指出了一些可能的研究方向。我們對這份報告中的一些關(guān)鍵點做了匯總。
大數(shù)據(jù)分析的進展
數(shù)據(jù)驅(qū)動的信息安全數(shù)據(jù)可以支撐銀行的欺詐檢測和基于異常的入侵監(jiān)測系統(tǒng)(IDSs)。盡管為了取證和入侵檢測,對日志、網(wǎng)絡(luò)流和系統(tǒng)事件進行分析 已經(jīng)是信息安全社區(qū)面對了十多年的問題了,然而出于幾個原因,傳統(tǒng)技術(shù)有時候?qū)﹂L期的、大規(guī)模的分析支持力度不夠:首先是以前保留大量的數(shù)據(jù)在經(jīng)濟上不可 行。因此在傳統(tǒng)的基礎(chǔ)設(shè)施中,大多數(shù)事件日志和其他記錄的計算機活動在一個固定的保留期(比如60天)后就被刪除了。其次,在那種不完整,還很嘈雜的大 型、非結(jié)構(gòu)化數(shù)據(jù)集上執(zhí)行分析和復(fù)雜查詢的效率很低下。比如說,幾個流行的信息安全和事件管理(SIEM)工具都不支持對非結(jié)構(gòu)化數(shù)據(jù)的分析和管理,被嚴 格限定在預(yù)定義的數(shù)據(jù)方案上。然而,因為大數(shù)據(jù)應(yīng)用程序可以有效地清理、準備、查詢那些異構(gòu)的、不完整的、嘈雜格式的數(shù)據(jù),所以它們也開始成為信息安全管 理軟件的一部分。最后,大型數(shù)據(jù)倉庫的管理傳統(tǒng)上都很昂貴,并且它們的部署通常需要很強的業(yè)務(wù)案例。而Hadoop 框架和其它大數(shù)據(jù)工具現(xiàn)在將大規(guī)模的、可靠的集群部署商品化了,因此在數(shù)據(jù)處理和分析上出現(xiàn)了新的機會。
欺詐檢測是大數(shù)據(jù)分析中最顯眼的應(yīng)用:信用卡和電話公司開展欺詐檢測的歷史已經(jīng)有幾十年了;然而從經(jīng)濟角度來看,必須用定制的基礎(chǔ)設(shè)置來挖掘大數(shù)據(jù)做欺詐檢測并不適于大規(guī)模采用。大數(shù)據(jù)技術(shù)的一個主要影響是它們讓很多行業(yè)的企業(yè)能夠承擔(dān)構(gòu)建基礎(chǔ)設(shè)施來做安全監(jiān)測的開支。
特別是新的大數(shù)據(jù)技術(shù),比如Hadoop生態(tài)圈 (包括 Pig、Hive、 Mahout 和RHadoop)、流挖掘、復(fù)雜事件處理和NoSQL數(shù)據(jù)庫—能夠以前所未有的規(guī)模和速度分析大規(guī)模的異構(gòu)數(shù)據(jù)集。這些技術(shù)通過促進安全信息的存儲、維 護和分析改變著安全分析。比如說,WINE平臺1和Bot-Cloud2 允許使用MapReduce高效 地處理數(shù)據(jù)做安全分析。通過觀察過去十年安全工具的反應(yīng)發(fā)生了什么樣的變化,我們可以找出其中的一些趨勢。當(dāng)IDS探測器的市場增長時,網(wǎng)絡(luò)監(jiān)測探測器和 日志工具被部署到了企業(yè)網(wǎng)絡(luò)中;然而,管理這些分散的數(shù)據(jù)源發(fā)過來的警告變成了一個很有挑戰(zhàn)性的任務(wù)。結(jié)果安全廠商開始開發(fā)SIEMs ,致力于把警告信息和其它網(wǎng)絡(luò)統(tǒng)計數(shù)據(jù)整合并關(guān)聯(lián)起來,通過一個儀表板把所有信息呈現(xiàn)給安全分析人員,F(xiàn)在,大數(shù)據(jù)工具將更加分散數(shù)據(jù)源,時間范圍更長的 數(shù)據(jù)關(guān)聯(lián)、整合和歸納整理起來交給安全分析人員,改進了安全分析人員可獲取的信息。
Zions Bancorporation最近給出的一個案例研究可以讓我們見到大數(shù)據(jù)工具的具體收益。它的研究發(fā)現(xiàn),它所處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)的 SIEM(在一個月的數(shù)據(jù)負載中搜索要花20分鐘到一個小時的時間)多出很多。在它用Hive運行查詢的新Hadoop 系統(tǒng)中,相同的結(jié)果大概在一分鐘左右就出來了。3 采用驅(qū)動這一實現(xiàn)的安全數(shù)據(jù)倉庫,用戶不僅可以從防火墻和安全設(shè)備中挖掘有意義 的安全信息,還能從網(wǎng)站流、業(yè)務(wù)流程和其他日常事務(wù)中挖掘。將非結(jié)構(gòu)化的數(shù)據(jù)和多種不同的數(shù)據(jù)集納入一個分析框架中是大數(shù)據(jù)的特性之一。大數(shù)據(jù)工具還特別 適合用作高級持續(xù)性威脅(APT)的檢測和取證的基礎(chǔ)工具。4,5 APT的運行模式又低又慢(即執(zhí)行時不引人注意,而時間又很 長);因此,它們可能會持續(xù)很長時間,而受害者卻對入侵毫無所知。為了檢測這些攻擊,我們需要收集并關(guān)聯(lián)大量分散的數(shù)據(jù)(包括來自內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和外部 共享的智能數(shù)據(jù)),并執(zhí)行長期的歷史相關(guān)性風(fēng)險,以便納入網(wǎng)絡(luò)歷史上發(fā)生過的攻擊的后驗信息。
挑戰(zhàn)
盡管在處理安全問題上,大數(shù)據(jù)分析應(yīng)用程序的希望很顯著,但我們必須提出幾項挑戰(zhàn),從而去認識到它真正的潛力。在行業(yè)中分享數(shù)據(jù),隱私特別重要,并且要避免違背數(shù)據(jù)重用的隱私原則法規(guī),也就是說只能將數(shù)據(jù)用于收集它的目的。直到最近,隱私在很大程度上還取決于在抽取、分析和關(guān)聯(lián)潛在敏感數(shù)據(jù)集能力上的技術(shù)局限性上。然而,大數(shù)據(jù)分析的發(fā)展為我們提供了抽取和關(guān)聯(lián)這種數(shù)據(jù)的工具,讓**隱私更容易了。因此,我們 必須在了解隱私法規(guī)及推薦實踐的情況下開發(fā)大數(shù)據(jù)應(yīng)用程序。盡管在某些存在隱私法規(guī)的領(lǐng)域—比如說,在美國,美國聯(lián)邦通信委員跟電信公司的合作,健康保險 隱私及責(zé)任法案指出的醫(yī)療數(shù)據(jù),幾個州的公用事業(yè)委員會限制智能電網(wǎng)數(shù)據(jù)的使用,以及聯(lián)邦貿(mào)易委員會正在制定Web活動的指導(dǎo)方針—所有這些活動都擴大了 系統(tǒng)的覆蓋范圍,并且在很多情況下都會有不同的解讀。即便有隱私法規(guī)在,我們也要懂得,那樣大規(guī)模的數(shù)據(jù)收集和存儲會吸引社會各界的關(guān)注,包括產(chǎn)業(yè)界(將 我們的信息用在營銷和廣告上),政府(會強調(diào)這些數(shù)據(jù)對國家安全或法律執(zhí)行很有必要)和罪犯(喜歡盜取我們的身份)。因此,作為大數(shù)據(jù)應(yīng)用程序的架構(gòu)師和 設(shè)計者,我們要積極主動地創(chuàng)造出保障措施,防止對這些大數(shù)據(jù)庫存的濫用。
另外一個挑戰(zhàn)是數(shù)據(jù)出處的問題。因為大數(shù)據(jù)讓我們可以擴充用于處理的數(shù)據(jù)源,所以很難判斷出哪個數(shù)據(jù)源符合我們的分析算法所要求的可信賴度,以便能 生產(chǎn)出準確的結(jié)果。因此,我們需要反思工具中所用數(shù)據(jù)的真實性和完整性。我們可以研究源自對抗性機器學(xué)習(xí)和穩(wěn)健統(tǒng)計的思路,找出并減輕惡意插入數(shù)據(jù)的影 響。
這個特別的CSA報告聚焦于大數(shù)據(jù)分析在安全方面的應(yīng)用,但另一方面是用安全技術(shù)保護大數(shù)據(jù)。隨著大數(shù)據(jù)工具不斷被部署到企業(yè)系統(tǒng)中,我們不僅要利 用傳統(tǒng)的安全機制(比如在Hadoop內(nèi)部集成傳輸層安全協(xié)議),還要引入新工具,比如Apache的Accumulo,來處理大數(shù)據(jù)管理中獨有的安全問 題。
最后,這個報告中還有一個沒有覆蓋到,但還需要進一步開發(fā)的領(lǐng)域,即人機交互,特別是可視化分析如何幫助安全分析人員解讀查詢結(jié)果。可視化分析是通 過交互式可視化界面促進推理分析能力的科學(xué)。跟為了高效計算和存儲而開發(fā)的技術(shù)機制相比,大數(shù)據(jù)中的人機交互受到的關(guān)注比較少,但它也是大數(shù)據(jù)分析達成 “承諾”必不可少的基礎(chǔ)工具,因為它的目標是通過最有效的展示方式將信息傳達給人類。大數(shù)據(jù)正在改變著用于網(wǎng)絡(luò)監(jiān)測、SIEM和取證的安全技術(shù)景觀。然 而,在進攻和防守永遠不會停歇的軍備競賽中,大數(shù)據(jù)不是萬能的,安全研究人員必須不斷探索新的方式來遏制老練的攻擊者。大數(shù)據(jù)還會讓維持控制個人信息的泄 漏變成持續(xù)不斷的挑戰(zhàn)。因此,我們需要付出更多的努力,用保護隱私的價值觀培育新一代的計算機科學(xué)家和工程師,并跟他們一起開發(fā)出設(shè)計大數(shù)據(jù)系統(tǒng)的工具, 從而讓大數(shù)據(jù)系統(tǒng)能遵循普遍認可的隱私準則。
參考資料
T. Dumitras and D. Shou, “Toward a Standard Benchmark for Computer Security Research: The Worldwide Intelligence Network Environment (WINE),” Proc. EuroSys BADGERS Workshop, ACM, 2011, pp. 89–96.
J. François et al., “BotCloud: Detecting Botnets Using MapReduce,” Proc. Workshop Information Forensics and Security, IEEE, 2011, pp. 1–6.
E. Chickowski, “A Case Study in Security Big Data Analysis,” Dark Reading, 9 Mar. 2012.
P. Giura and W. Wang, “Using Large Scale Distributed Computing to Unveil Advanced Persistent Threats,” Science J., vol. 1, no. 3, 2012, pp. 93–105.
T.-F. Yen et al., “Beehive: Large-Scale Log Analysis for Detecting Suspicious Activity in Enterprise Networks,” to be published in Proc. Ann. Computer Security Applications Conference (ACSAC 13), ACM, Dec. 2013.
關(guān)于作者
Alvaro A. Cárdenas德克薩斯大學(xué)達拉斯分校的助理教授。在這里聯(lián)系他。
Pratyusa K. Manadhata HP實驗室研究員。在這里聯(lián)系他。
Sreeranga P. Rajan 是美國富士通實驗室的軟件系統(tǒng)主任?梢酝ㄟ^sree@us.fujitsu.com聯(lián)系他。這里還有可以免費訪問的入選的 CS文章和專欄。
這篇文章最初發(fā)表在 IEEE安全與隱私 雜志上。 IEEE安全與隱私的主要目標是促進和追蹤在安全、隱私和可靠性方面的進展,并將這些進展以一種實用的形式展示給范圍廣泛的專業(yè)團體,從學(xué)院派的研究人員到產(chǎn)業(yè)內(nèi)的從業(yè)人員。
原文英文鏈接:Big Data Analytics for Security |
|