亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

Chinaunix

標(biāo)題: BIG DATA 大數(shù)據(jù)時(shí)代來(lái)臨 [打印本頁(yè)]

作者: turingbooks    時(shí)間: 2012-09-27 09:57
標(biāo)題: BIG DATA 大數(shù)據(jù)時(shí)代來(lái)臨
本帖最后由 turingbooks 于 2012-09-27 09:58 編輯

“大數(shù)據(jù)時(shí)代”已經(jīng)來(lái)臨,并對(duì)很多領(lǐng)域都產(chǎn)生了深遠(yuǎn)的影響。在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策行為將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺(jué);而在公共衛(wèi)生、經(jīng)濟(jì)發(fā)展和經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見(jiàn)能力也已經(jīng)嶄露頭角。

數(shù)據(jù)聚類(lèi)找出霍亂病因

一種重要的數(shù)據(jù)匯總形式是聚類(lèi),在聚類(lèi)中,數(shù)據(jù)被看成是多維空間下的點(diǎn),空間中相互鄰近的點(diǎn)將被賦予相同的類(lèi)別。這些類(lèi)別本身也會(huì)被概括表示,比如通過(guò)類(lèi)別質(zhì)心及類(lèi)別中的點(diǎn)到質(zhì)心的平均距離來(lái)描述。這些類(lèi)別的概括信息綜合在一起形成了全體數(shù)據(jù)集合的數(shù)據(jù)匯總結(jié)果。

一個(gè)利用聚類(lèi)來(lái)解決問(wèn)題的著名實(shí)例發(fā)生在很久以前的倫敦,在整個(gè)問(wèn)題的解決中并沒(méi)有使用計(jì)算機(jī) 。內(nèi)科醫(yī)生John Snow在處理霍亂爆發(fā)時(shí)在城市地圖上標(biāo)出了病例的發(fā)生地點(diǎn)。圖1-1給出了該圖的一個(gè)小片段,展示了病例的傳播情況。



圖1-1 在倫敦市地圖上標(biāo)出的霍亂病例的傳播情況示意圖

圖中顯示,病例聚集在某些交叉路口。這些路口的水井已經(jīng)被污染,離這些水井最近的居民染上了疾病,而清潔的水井附近的居民則沒(méi)有染病。如果沒(méi)對(duì)這些數(shù)據(jù)進(jìn)行聚類(lèi),霍亂的病因就難以揭開(kāi)。

——摘自《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》



書(shū)中分析了海量數(shù)據(jù)集數(shù)據(jù)挖掘常用的算法,介紹了目前Web應(yīng)用的許多重要話(huà)題。主要內(nèi)容包括:

分布式文件系統(tǒng)以及Map-Reduce工具;
相似性搜索;
數(shù)據(jù)流處理以及針對(duì)易丟失數(shù)據(jù)等特殊情況的專(zhuān)用處理算法;
搜索引擎技術(shù),如谷歌的PageRank;
頻繁項(xiàng)集挖掘;
大規(guī)模高維數(shù)據(jù)集的聚類(lèi)算法;
Web應(yīng)用中的關(guān)鍵問(wèn)題:廣告管理和推薦系統(tǒng)。


作者簡(jiǎn)介

Anand Rajaraman 數(shù)據(jù)庫(kù)和Web技術(shù)領(lǐng)域權(quán)威,創(chuàng)業(yè)投資基金Cambrian聯(lián)合創(chuàng)始人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授。Rajaraman職業(yè)生涯非常成功:1996年創(chuàng)辦Junglee公司,兩年后該公司被亞馬遜以2.5億美元收購(gòu),Rajaraman被聘為亞馬遜技術(shù)總監(jiān),推動(dòng)亞馬遜從一個(gè)零售商轉(zhuǎn)型為零售平臺(tái);2000年與人合創(chuàng)Cambrian,孵化出幾個(gè)后來(lái)被谷歌收購(gòu)的公司;2005年創(chuàng)辦Kosmix公司并任CEO,該公司2011年被沃爾瑪集團(tuán)收購(gòu)。Rajaraman生于印度,在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)碩士和博士學(xué)位。求學(xué)期間與人合著的一篇論文榮列近20年來(lái)被引用次數(shù)最多的論文之一。博客地址http://anand.typepad.com/datawocky/。

Jeffrey David Ullman 美國(guó)國(guó)家工程院院士,計(jì)算機(jī)科學(xué)家,斯坦福大學(xué)教授。Ullman早年在貝爾實(shí)驗(yàn)室工作,之后任教于普林斯頓大學(xué),十年后加入斯坦福大學(xué)直至退休,一生的科研、著書(shū)和育人成果卓著。他是ACM會(huì)員,曾獲SIGMOD貢獻(xiàn)獎(jiǎng)、Knuth獎(jiǎng)等多項(xiàng)科研大獎(jiǎng);他是“龍書(shū)”《編譯原理》、數(shù)據(jù)庫(kù)領(lǐng)域權(quán)威指南《數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)》的合著者;麾下多名學(xué)生成為了數(shù)據(jù)庫(kù)領(lǐng)域的專(zhuān)家,其中最有名的當(dāng)屬谷歌創(chuàng)始人Sergey Brin;本書(shū)第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。




歡迎光臨 Chinaunix (http://72891.cn/) Powered by Discuz! X3.2