亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 3940 | 回復(fù): 0
打印 上一主題 下一主題

數(shù)據(jù)挖掘在巨型電子商務(wù)公司中的應(yīng)用 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2011-02-18 13:45 |只看該作者 |倒序?yàn)g覽
轉(zhuǎn):李仁貴

數(shù)據(jù)挖掘在巨型電子商務(wù)公司中的應(yīng)用



我將以阿里巴巴,百度,騰訊三家公司為案例,來簡單的探討這一應(yīng)用。
阿里巴巴是國內(nèi)最大的電子商務(wù)服務(wù)供應(yīng)商,
百度是全球最大的中文搜索引擎服務(wù)供應(yīng)商,
騰訊是中國最大的即時聊天工具服務(wù)供應(yīng)商。
當(dāng)這幾家公司都將注意力陸續(xù)投入到網(wǎng)絡(luò)交易平臺的時候,對于我們的商家和消費(fèi)者來說無疑將獲得更大的益處,在此文中我將拋開我們經(jīng)常關(guān)注的誰擁有這樣的平臺,我讓大家更加深入的了解下,未來會影響幾大電子商務(wù)巨頭市場格局背后隱藏的電子商務(wù)軟實(shí)力-數(shù)據(jù)挖掘。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
應(yīng)用于電子商務(wù)平臺服務(wù)公司來說,就需要從目前幾大電子商務(wù)公司積累的交易平臺中抽取出針對消費(fèi)者購買行為,購物習(xí)慣,偏好,消費(fèi)支出,消費(fèi)能力,消費(fèi)者品牌忠誠度,性別差異,年齡等抽取出消費(fèi)者行為指數(shù)。
就目前而言淘寶擁有中國最大的購物平臺和商品數(shù),在海量的商品數(shù)量里需要解決根據(jù)消費(fèi)者行為偏好進(jìn)行有策略的精準(zhǔn)營銷上,如何將抽取出上千萬消費(fèi)者再購物習(xí)慣的偏好則需要投入大量的高素質(zhì)人才,以抽取出消費(fèi)者購物時的關(guān)聯(lián)信息,為賣家提供有科技含量的產(chǎn)品推廣模式,為品牌廣告主提供品牌宣傳最優(yōu)的模式,淘寶作為網(wǎng)絡(luò)交易平臺的先行者,面對后面越來越多的挑戰(zhàn)者,需要更多的投入到這一基礎(chǔ)領(lǐng)域的研究中去,以支撐未來龐大的業(yè)務(wù),同時需要漸進(jìn)的整合阿里巴巴企業(yè)客戶資源抽取出差異化其他競爭對手的數(shù)據(jù),同時在未來的2,3年內(nèi)淘寶作為國內(nèi)電子商務(wù)霸主將繼續(xù)領(lǐng)先。
就目前而言拍拍擁有中國第二大的購物平臺和商品數(shù),在海量的商品數(shù)量同樣需要解決根據(jù)消費(fèi)者行為偏好進(jìn)行有策略的精準(zhǔn)營銷上,如何將抽取出上千萬消費(fèi)者再購物習(xí)慣的偏好則需要投入大量的高素質(zhì)人才,以抽取出消費(fèi)者購物時的關(guān)聯(lián)信息,為賣家提供有科技含量的產(chǎn)品推廣模式。當(dāng)時背靠騰訊已經(jīng)培育了大量的潛在消費(fèi)者,通過騰訊其他平臺積累了網(wǎng)民的一些消費(fèi)習(xí)慣及對品牌的偏好,比如騰訊空間,個人在完善信息時需要對自己已經(jīng)熟知的品牌進(jìn)行填寫,某種意義上這也是為未來消費(fèi)者行為分析及品牌忠誠度分析方面準(zhǔn)備,在消費(fèi)信息定向傳播時有很大的操作空間,同時能為品牌客戶提供良好的解決品牌宣傳解決方案。
就目前而言百度的交易平臺還沒有正式上線,但精心的市場導(dǎo)入及強(qiáng)大的實(shí)力對國內(nèi)任何一個競爭對手來說都是有所防范的,百度的交易平臺沒有上線,但是在數(shù)據(jù)挖掘領(lǐng)域的技術(shù)儲備是優(yōu)先于其他競爭對手的,同時百度的空間已經(jīng)為百度積累了大量的消費(fèi)者資源,并且擁有大量的可供參考的消費(fèi)者行為指數(shù),在未來電子商務(wù)領(lǐng)域中擁有比較優(yōu)勢。不過在電子商務(wù)平臺運(yùn)營方面還需要短期內(nèi)的試錯和糾偏以及受到競爭對手的阻擊。

數(shù)據(jù)挖掘基礎(chǔ)知識
     1)數(shù)據(jù)挖掘能做以下六種不同事情(分析方法):

  · 分類 (Classification)

  · 估值(Estimation)

  · 預(yù)言(Prediction)

  · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)

  · 聚集(Clustering)

  · 描述和可視化(Des cription and Visualization)

  · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)

  2)數(shù)據(jù)挖掘分類

  以上六種數(shù)據(jù)挖掘的分析方法可以分為兩類:直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘

  · 直接數(shù)據(jù)挖掘

  目標(biāo)是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述。

  · 間接數(shù)據(jù)挖掘

  目標(biāo)中沒有選出某一具體的變量,用模型進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系 。

  · 分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘;后三種屬于間接數(shù)據(jù)挖掘

  3)各種分析方法的簡介

  · 分類 (Classification)

  首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。

  例子:

  a. 信用卡申請者,分類為低、中、高風(fēng)險

  b. 分配客戶到預(yù)先定義的客戶分片

  注意: 類的個數(shù)是確定的,預(yù)先定義好的

  · 估值(Estimation)

  估值與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。

  例子:

  a. 根據(jù)購買模式,估計一個家庭的孩子個數(shù)

  b. 根據(jù)購買模式,估計一個家庭的收入

  c. 估計real estate的價值

  一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對家庭貸款業(yè)務(wù),運(yùn)用估值,給各個客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。

  · 預(yù)言(Prediction)

  通常,預(yù)言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個單獨(dú)的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時間來驗(yàn)證的,即必須經(jīng)過一定時間后,才知道預(yù)言準(zhǔn)確性是多少。

  · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)

  決定哪些事情將一起發(fā)生。

  例子:

  a. 超市中客戶在購買A的同時,經(jīng)常會購買B,即A => B(關(guān)聯(lián)規(guī)則)

  b. 客戶在購買A后,隔一段時間,會購買B (序列分析)

  · 聚集(Clustering)

  聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。

  例子:

  a. 一些特定癥狀的聚集可能預(yù)示了一個特定的疾病

  b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群

  聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。

  · 描述和可視化(Des cription and Visualization)

  是對數(shù)據(jù)挖掘結(jié)果的表示方式。
數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
  1.什么是關(guān)聯(lián)規(guī)則

  在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。

  在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。

  按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。

  數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。

  2.關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法

  2.1關(guān)聯(lián)規(guī)則挖掘的過程

  關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。

  關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時,則{A,B}稱為高頻項(xiàng)目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項(xiàng)目組為止。

  關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。

  就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時購買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會同時購買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購買尿布的行為,超市將可推薦該消費(fèi)者同時購買啤酒。這個商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購買尿布的交易,會同時購買啤酒”的消費(fèi)行為。

  從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。

  2.2關(guān)聯(lián)規(guī)則的分類

  按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下:

  1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。

  布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個數(shù)值型關(guān)聯(lián)規(guī)則。

  2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。

  在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM臺式機(jī)=>Sony打印機(jī),是一個細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機(jī)=>Sony打印機(jī),是一個較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。

  3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。

  在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。例如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購買的物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關(guān)聯(lián)規(guī)則。

  2.3關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法

  1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集

  Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。

  該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。

  可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點(diǎn)。

  2.基于劃分的算法

  Savasere等設(shè)計了一個基于劃分的算法。這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨(dú)考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項(xiàng)集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng)集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨(dú)立的處理器生成頻集的時間也是一個瓶頸。

  3.FP-樹頻集算法

  針對Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時候,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提高。

  3.該領(lǐng)域在國內(nèi)外的應(yīng)用

  3.1關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)在國內(nèi)外的應(yīng)用

  就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時也可以顯示出顧客會對什么產(chǎn)品感興趣。

  同時,一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。

  但是目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢?梢哉f,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。

  3.2近年來關(guān)聯(lián)規(guī)則發(fā)掘技術(shù)的一些研究

  由于許多應(yīng)用問題往往比超市購買問題更復(fù)雜,大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。
數(shù)據(jù)挖掘的工具
  1. 一般分析目的用的軟件包

  SAS Enterprise Miner

  IBM Intelligent Miner

  Unica PRW

  SPSS Clementine

  SGI MineSet

  Oracle Darwin

  Angoss KnowledgeSeeker

  2. 針對特定功能或產(chǎn)業(yè)而研發(fā)的軟件

  KD1(針對零售業(yè))

  Options & Choices(針對保險業(yè))

  HNC(針對信用卡詐欺或呆帳偵測)

  Unica Model 1(針對行銷業(yè))

  3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系統(tǒng)
    結(jié)尾:因此,在未來的企業(yè)競爭中,國內(nèi)的幾大電子商務(wù)交易平臺不單是轉(zhuǎn)由商業(yè)模式的競爭,在面對海量數(shù)據(jù)的時候技術(shù)領(lǐng)先也將越發(fā)的顯現(xiàn)其力量,技術(shù)領(lǐng)先的電子商務(wù)公司和商業(yè)模式成熟的公司在未來取得持續(xù)的領(lǐng)先優(yōu)勢,因此在未來基礎(chǔ)學(xué)科的研究也將影響我國電子商務(wù)的進(jìn)程,我們可以明顯的看到國內(nèi)大型的互聯(lián)網(wǎng)企業(yè)投入持續(xù)的資金到基礎(chǔ)學(xué)科的研究領(lǐng)域中。
       參考:
http://baike.baidu.com/view/7893.html?wtp=tt
http://www.interscm.com/thinktank/e-commerce/200806/07-15927.html
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP