- 論壇徽章:
- 0
|
本帖最后由 zuoninger 于 2012-10-16 15:00 編輯
最廣為接受的定義是,數據挖掘(data mining)是數據“模型”的發(fā)現過程。而“模型”卻可以有多種含義。下面介紹在建模方面最重要的幾個方向。
統(tǒng)計建模
最早使用“data mining”術語的人是統(tǒng)計學家。術語“data mining”或者“data dredging”最初是貶義詞,意指試圖抽取出數據本身不支持的信息的過程。1.2節(jié)給出了這種挖掘情況下可能犯的幾類錯誤。當然,現在術語“data mining”的意義已經是正面的了。目前,統(tǒng)計學家認為數據挖掘就是統(tǒng)計模型(statistical model)的構建過程,而這個統(tǒng)計模型指的就是可見數據所遵從的總體分布。
例1.1 假定現有的數據是一系列數字。這種數據相對于常用的挖掘數據而言顯得過于簡單,但這只是為了說明問題而采用的例子。統(tǒng)計學家可能會判定這些數字來自一個高斯分布(即正態(tài)分布),并利用公式來計算該分布最有可能的參數值。該高斯分布的均值和標準差能夠完整地刻畫整個分布,因而成為上述數據的一個模型。
機器學習
有些人將數據挖掘看成是機器學習的同義詞。毫無疑問,一些數據挖掘方法中適當使用了機器學習算法。機器學習的實踐者將數據當成訓練集來訓練某類算法,比如貝葉斯網絡、支持向量機、決策樹、隱馬爾可夫模型等。
某些場景下上述的數據利用方式是合理的。機器學習擅長的典型場景是人們對數據中的尋找目標幾乎一無所知。比如,我們并不清楚到底是影片的什么因素導致某些觀眾喜歡或者厭惡該影片。因此,在Netflix競賽要求設計一個算法來預測觀眾對影片的評分時,基于已有評分樣本的機器學習算法獲得了巨大成功。在9.4節(jié)中,我們將討論此類算法的一個簡單形式。
另一方面,當挖掘的目標能夠更直接地描述時,機器學習方法并不成功。一個有趣的例子是,WhizBang!實驗室 曾試圖使用機器學習方法在Web上定位人們的簡歷。但是不管使用什么機器學習算法,最后的效果都比不過人工設計的直接通過典型關鍵詞和短語來查找簡歷的算法。由于看過或者寫過簡歷的人都對簡歷包含哪些內容非常清楚, Web頁面是否包含簡歷毫無秘密可言。因此,使用機器學習方法相對于直接設計的簡歷發(fā)現算法而言并無任何優(yōu)勢。
建模的計算方法
近年來,計算機科學家已將數據挖掘看成一個算法問題。這種情況下,數據模型僅僅就是復雜查詢的答案。例如,給定例1.1中的一系列數字,我們可以計算它們的均值和標準差。需要注意的是,這樣計算出的參數可能并不是這組數據的最佳高斯分布擬合參數,盡管在數據集規(guī)模很大時兩者非常接近。
數據建模有很多不同的方法。前面我們已經提到,數據可以通過其生成所可能遵從的統(tǒng)計過程構建來建模。而其他的大部分數據建模方法可以描述為下列兩種做法之一:
(1) 對數據進行簡潔的近似匯總描述;
(2) 從數據中抽取出最突出的特征來代替數據并將剩余內容忽略。
在接下來的內容中,我們將探究上述兩種做法。
數據匯總
一種最有趣的數據匯總形式是PageRank,它也是使谷歌成功的關鍵算法之一,我們將在第5章對它進行詳細介紹。在這種形式的Web挖掘當中,Web的整個復雜結構可由每個頁面所對應的一個數字歸納而成。這種數字就是網頁的PageRank值,即一個Web結構上的隨機游走者在任意給定時刻處于該頁的概率(這是極其簡化的一種說法)。PageRank的一個非常好的特性就是它能夠很好地反映網頁的重要性,即典型用戶在搜索時期望返回某個頁面的程度。
另一種重要的數據匯總形式是聚類,第7章將予以介紹。在聚類中,數據被看成是多維空間下的點,空間中相互鄰近的點將被賦予相同的類別。這些類別本身也會被概括表示,比如通過類別質心及類別中的點到質心的平均距離來描述。這些類別的概括信息綜合在一起形成了全體數據集合的數據匯總結果。
例1.2 一個利用聚類來解決問題的著名實例發(fā)生在很久以前的倫敦,在整個問題的解決中并沒有使用計算機 。內科醫(yī)生John Snow在處理霍亂爆發(fā)時在城市地圖上標出了病例的發(fā)生地點。圖1-1給出了該圖的一個小片段,展示了病例的傳播情況。
001.jpg (28.32 KB, 下載次數: 78)
下載附件
2012-10-16 14:57 上傳
圖中顯示,病例聚集在某些交叉路口。這些路口的水井已經被污染,離這些水井最近的居民染上了疾病,而清潔的水井附近的居民則沒有染病。如果沒對這些數據進行聚類,霍亂的病因就難以揭開。
特征抽取
典型的基于特征的模型會從數據中尋找某個現象的最極端樣例,并使用這些樣例來表示數據。熟悉機器學習的一個分支——貝葉斯網絡(并不在本書的討論范圍內)的讀者應該會知道,在貝葉斯網絡中,可以利用尋找對象間的最強統(tǒng)計依賴來表示所有統(tǒng)計關聯(lián),從而表示出對象之間的復雜關系。我們將要介紹大規(guī)模數據集下的一些重要的特征抽取類型,它們包括以下兩種。
(1) 頻繁項集(frequent itemset) 該模型適用于多個小規(guī)模項集組成的數據,就像我們將在第6章討論的購物籃問題(market-basket problem)一樣。我們尋找那些在很多購物籃中同時出現的小規(guī)模項集,這些頻繁項集就是我們要找的刻畫數據的特征。這種挖掘的原始應用的的確確發(fā)生在真實的購物籃場景下:在商店或者超市收銀臺結賬的時候確實會發(fā)現某些物品會被顧客同時購買,例如漢堡包和番茄醬,這些物品就組成所謂的項集。
(2) 相似項(similar item) 很多時候,數據往往看上去相當于一系列集合,我們的目標是尋找那些共同元素比例較高的集合對。一個例子是將在線商店(如Amazon)的顧客看成是其已購買的商品的集合。為了使Amazon能夠向某顧客推薦他可能感興趣的其他商品,Amazon可以尋找與該顧客相似的顧客群,并把他們當中大部分人購買過的商品也推薦給他。該過程稱為協(xié)同過濾(collaborative filtering)。如果顧客的興趣都很單一,即他們只購買某一類的商品,那么將顧客聚類的方法可能會起作用。然而,由于顧客大都對許多不同的商品感興趣,因此對每個顧客而言,尋找興趣相似的那部分顧客并根據這些關聯(lián)對數據進行表示的做法會更有用。我們將在第3章討論相似性。
摘自《大數據:互聯(lián)網大規(guī)模數據挖掘與分布式處理》
XFM29131.jpg (374.89 KB, 下載次數: 55)
下載附件
2012-10-16 15:00 上傳
|
|