亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺(tái) 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 6284 | 回復(fù): 9
打印 上一主題 下一主題

1.2 什么是數(shù)據(jù)挖掘 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報(bào)告]
發(fā)表于 2011-03-24 19:35 |只看該作者 |倒序?yàn)g覽
1.2 什么是數(shù)據(jù)挖掘

簡單地說,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或“挖掘”知識。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。注意,從礦石或砂子挖掘黃金稱作黃金挖掘,而不是砂石挖掘。因此,數(shù)據(jù)挖掘應(yīng)當(dāng)更正確地命名為“從數(shù)據(jù)中挖掘知識”,遺憾的是這個(gè)詞有點(diǎn)長。“知識挖掘”是一個(gè)較短的術(shù)語,但不能反映從大量數(shù)據(jù)中挖掘。畢竟,挖掘是一個(gè)很生動(dòng)的術(shù)語,它抓住了從大量的、未加工的材料中發(fā)現(xiàn)少量寶貴金塊這一過程的特點(diǎn)(見圖1-3)。這樣,“數(shù)據(jù)挖掘”成了流行術(shù)語。還有一些術(shù)語具有和數(shù)據(jù)挖掘類似但稍微不同的含義,如從數(shù)據(jù)中挖掘知識、知識提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。

許多人把數(shù)據(jù)挖掘視為另一個(gè)常用的術(shù)語數(shù)據(jù)中的知識發(fā)現(xiàn)或KDD的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個(gè)基本步驟。知識發(fā)現(xiàn)過程如圖1-4所示,由以下步驟的迭代序列組成:

1. 數(shù)據(jù)清理(消除噪聲和不一致數(shù)據(jù))

2. 數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)

3. 數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))




圖1-3 數(shù)據(jù)挖掘:在你的數(shù)據(jù)中搜索知識(有趣的模式)


圖1-4 數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)過程的一個(gè)步驟

4. 數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作)

5. 數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)

6. 模式評估(根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式;見1.5節(jié))

7. 知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識)

步驟1~4是數(shù)據(jù)預(yù)處理的不同形式,為挖掘準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)挖掘步驟可能與用戶或知識庫交互。有趣的模式提供給用戶,或作為新的知識存放在知識庫中。注意,根據(jù)這種觀點(diǎn),數(shù)據(jù)挖掘只是整個(gè)過程中的一個(gè)步驟,盡管是最重要的步驟,因?yàn)樗l(fā)現(xiàn)用來評估的隱藏的模式。

我們同意數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程的一個(gè)步驟。然而,在產(chǎn)業(yè)界、媒體和數(shù)據(jù)庫研究界,術(shù)語數(shù)據(jù)挖掘比長術(shù)語從數(shù)據(jù)中發(fā)現(xiàn)知識更流行。因此,本書選用術(shù)語數(shù)據(jù)挖掘。我們采用數(shù)據(jù)挖掘功能的廣義觀點(diǎn):數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識的過程;谶@種觀點(diǎn),典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分(見圖1-5):


圖1-5 典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)

• 數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫:這是一個(gè)或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子數(shù)據(jù)表或其他類型的信息庫?梢詫@些數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和集成。

• 數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘請求,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)。

• 知識庫:這是領(lǐng)域知識,用于指導(dǎo)搜索或評估結(jié)果模式的興趣度。這種知識可能包括概念分層,用于將屬性或?qū)傩灾到M織成不同的抽象層。用戶信念知識也可以包含在內(nèi),可以使用這種知識,根據(jù)非期望性評估模式的興趣度。領(lǐng)域知識的其他例子包括附加的興趣度約束或閾值,以及元數(shù)據(jù)(例如,描述來自多個(gè)異構(gòu)數(shù)據(jù)源的數(shù)據(jù))。

• 數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘系統(tǒng)的基本部分,理想情況下由一組功能模塊組成,用于執(zhí)行特征化、關(guān)聯(lián)和相關(guān)分析、分類、預(yù)測、聚類分析、離群點(diǎn)分析和演變分析等任務(wù)。

• 模式評估模塊:通常,該成分使用興趣度度量(見1.5節(jié)),并與數(shù)據(jù)挖掘模塊交互,以便將搜索聚焦在有趣的模式上。它可能使用興趣度閾值過濾已發(fā)現(xiàn)的模式。模式評估模塊也可以與挖掘模塊集成在一起,這依賴于所用的數(shù)據(jù)挖掘方法的實(shí)現(xiàn)。對于有效的數(shù)據(jù)挖掘,建議盡可能深入地將模式評估興趣度推進(jìn)到挖掘過程之中,以便將搜索限制在有趣的模式上。

• 用戶界面:該模塊在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信,允許用戶與系統(tǒng)交互,說明數(shù)據(jù)挖掘查詢或任務(wù),提供信息以幫助搜索聚焦,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘。此外,該成分還允許用戶瀏覽數(shù)據(jù)庫和數(shù)據(jù)倉庫模式或數(shù)據(jù)結(jié)構(gòu),評估挖掘的模式,以不同的形式對模式可視化。

從數(shù)據(jù)倉庫觀點(diǎn)來看,數(shù)據(jù)挖掘可以看作聯(lián)機(jī)分析處理(OLAP)的高級階段。然而,通過結(jié)合更高級的數(shù)據(jù)分析技術(shù),數(shù)據(jù)挖掘比數(shù)據(jù)倉庫系統(tǒng)的匯總型分析處理的狹窄領(lǐng)域走得更遠(yuǎn)。

盡管市場上已有許多“數(shù)據(jù)挖掘系統(tǒng)”,但是并非所有的系統(tǒng)都能進(jìn)行真正的數(shù)據(jù)挖掘。不能處理大量數(shù)據(jù)的數(shù)據(jù)分析系統(tǒng),最多稱作機(jī)器學(xué)習(xí)系統(tǒng)、統(tǒng)計(jì)數(shù)據(jù)分析工具或?qū)嶒?yàn)系統(tǒng)原型。一個(gè)系統(tǒng)只能夠進(jìn)行數(shù)據(jù)或信息檢索,包括在大型數(shù)據(jù)庫找出聚集值或回答演繹查詢,更應(yīng)歸類為數(shù)據(jù)庫系統(tǒng),或信息檢索系統(tǒng),或演繹數(shù)據(jù)庫系統(tǒng)。

數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖像與信號處理以及空間或時(shí)間數(shù)據(jù)分析。在本書討論數(shù)據(jù)挖掘時(shí),我們采用數(shù)據(jù)庫觀點(diǎn)。也就是說,著重強(qiáng)調(diào)有效的和可伸縮的數(shù)據(jù)挖掘技術(shù)。一個(gè)算法是可伸縮的(scalable)是指,如果給定內(nèi)存和磁盤空間等可利用的系統(tǒng)資源,其運(yùn)行時(shí)間應(yīng)當(dāng)隨數(shù)據(jù)的規(guī)模近似線性地增加。通過數(shù)據(jù)挖掘,可以從數(shù)據(jù)

庫提取有趣的知識、規(guī)律或高層信息,并可以從不同角度觀察或?yàn)g覽它們。發(fā)現(xiàn)的知識可以用于做決策、過程控制、信息管理和查詢處理。因此,數(shù)據(jù)挖掘在信息和數(shù)據(jù)庫系統(tǒng)方面是最重要的前沿之一,是信息技術(shù)最有發(fā)展前途的交叉學(xué)科之一。

論壇徽章:
0
2 [報(bào)告]
發(fā)表于 2012-04-07 04:06 |只看該作者
你以為我會(huì)眼睜睜地看著你去送死?我會(huì)閉上眼睛的。

樓主出門來財(cái),兒孫滿堂!










signature..................................
仙府之緣

論壇徽章:
0
3 [報(bào)告]
發(fā)表于 2012-04-07 07:51 |只看該作者
我身邊的朋友們啊,你們快點(diǎn)出名吧,這樣我的回憶錄就可以暢銷了~~~

我我~~~










signature..................................
仙府之緣

論壇徽章:
0
4 [報(bào)告]
發(fā)表于 2012-04-07 09:14 |只看該作者
每一發(fā)奮努力的背后,必有加倍的賞賜。

嘿嘿










signature..................................
仙府之緣

論壇徽章:
0
5 [報(bào)告]
發(fā)表于 2012-04-09 03:27 |只看該作者
我詛咒你一輩子買方便面沒有調(diào)料包。   

頂,是一種感謝  










signature..................................
仙府之緣

論壇徽章:
0
6 [報(bào)告]
發(fā)表于 2012-04-09 03:54 |只看該作者
人不能把錢帶進(jìn)墳?zāi),但錢卻可以把人帶進(jìn)去

我一直在微笑著看著這個(gè)世界!










signature..................................
仙府之緣

論壇徽章:
0
7 [報(bào)告]
發(fā)表于 2012-04-10 09:01 |只看該作者
生命這么長,等你幾年算什么

吖...

論壇徽章:
8
CU大;照
日期:2013-09-18 15:20:48CU大;照
日期:2013-09-18 15:20:58CU大;照
日期:2013-09-18 15:21:06CU大牛徽章
日期:2013-09-18 15:21:12CU大;照
日期:2013-09-18 15:21:17天秤座
日期:2013-10-30 14:01:03摩羯座
日期:2013-11-29 18:02:31luobin
日期:2016-06-17 17:46:36
8 [報(bào)告]
發(fā)表于 2012-06-01 17:30 |只看該作者
回復(fù) 1# feiyang10086


樓主整理的很棒,辛苦了。

論壇徽章:
2
C
日期:2016-10-25 16:11:40極客徽章
日期:2016-12-07 14:07:30
9 [報(bào)告]
發(fā)表于 2012-08-10 19:24 |只看該作者
感謝各位的分享

論壇徽章:
0
10 [報(bào)告]
發(fā)表于 2012-10-09 10:01 |只看該作者
整理的很不錯(cuò)!
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報(bào)專區(qū)
中國互聯(lián)網(wǎng)協(xié)會(huì)會(huì)員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP