平臺論壇博客文庫

論壇徽章:: 0

電梯直達(dá)

1樓 [收藏(0)] [報告]

發(fā)表于 2011-02-15 11:12 |只看該作者 |倒序瀏覽

本帖最后由 feiyang10086 于 2011-02-15 11:14 編輯

關(guān)于數(shù)據(jù)增量抽取模擬實現(xiàn)原理

通常為了盡可能的減少對業(yè)務(wù)系統(tǒng)的壓力和性能影響，或者因為網(wǎng)絡(luò)傳輸異構(gòu)數(shù)據(jù)庫等原因，一般都是根據(jù)特定的增量抽取原則，將數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫導(dǎo)出到flat文本文件或者XML文件中，也叫數(shù)據(jù)緩存區(qū)或者數(shù)據(jù)登臺區(qū)(這名字起得特別別扭)。本文討論的是從業(yè)務(wù)數(shù)據(jù)庫直接抽取到數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是一種體系架構(gòu)，而不是一種純粹的技術(shù)。實際上，大多數(shù)數(shù)據(jù)庫都提供了類似的不同數(shù)據(jù)庫直接連接的接口，例如SQL Server的鏈接數(shù)據(jù)庫，Oracle的透明網(wǎng)關(guān)等等。

　　關(guān)于數(shù)據(jù)的增量抽取也是一個重要的討論話題，其原因主要是在超大數(shù)據(jù)量情況下任何關(guān)系數(shù)據(jù)庫都無法滿足數(shù)據(jù)處理的要求。在《數(shù)據(jù)倉庫》(Inmon)一書中，主要描述了以下3種方法：

1、數(shù)據(jù)增量抽取，主要是基于時間戳的

2、掃描增量文件，實際上就是關(guān)系數(shù)據(jù)庫的歸檔日志。

3、前后映像對比

　　當(dāng)然每種方法都有其優(yōu)勢和劣勢，本文旨在討論基于時間戳的數(shù)據(jù)增量抽取的實現(xiàn)，無意探討和比較這三種方法的優(yōu)劣。

　　當(dāng)然在進(jìn)行基于時間戳的數(shù)據(jù)增量處理之前，首先要滿足以下假設(shè)。

1、假設(shè)在業(yè)務(wù)數(shù)據(jù)庫中存在著一個特定的時間屬性，作為增量抽取的唯一標(biāo)識。

2、假設(shè)在這個字段上存在著索引字段。這樣我們的數(shù)據(jù)增量抽取模擬腳本就不會遭遇到性能瓶頸。當(dāng)然我們還會通過將大事務(wù)盡可能變成小事務(wù)的原則進(jìn)行優(yōu)化。

3、假設(shè)業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫能夠以某種方式直接連接。

4、抽取過程中，盡量避免數(shù)據(jù)轉(zhuǎn)換、清洗的動作，以減少對業(yè)務(wù)數(shù)據(jù)庫的性能影響。

　　在滿足了以上條件之后，我們才能進(jìn)一步考慮數(shù)據(jù)增量抽取腳本的實現(xiàn)。
　　

下面開始對基于時間戳的數(shù)據(jù)增量抽取進(jìn)行系統(tǒng)設(shè)計：

1、建立鏈接數(shù)據(jù)庫。

2、首先需要定義一張數(shù)據(jù)字典表，定義需要進(jìn)行處理的任務(wù)，其中主要包括業(yè)務(wù)數(shù)據(jù)庫和目標(biāo)數(shù)據(jù)庫的表名、字段列表、以及where條件等。

3、有了這張字典表就可以開始進(jìn)行工作了，為了方便表達(dá)，暫時處理成偽代碼形式，同時只以一個表的處理為例。

　　獲取數(shù)據(jù)倉庫目標(biāo)表目前的最大時間(讀取字典表或者當(dāng)前表均可)
　　獲取業(yè)務(wù)數(shù)據(jù)庫業(yè)務(wù)表目前的最大時間(需要到業(yè)務(wù)系統(tǒng)中去讀取)
　　如果業(yè)務(wù)數(shù)據(jù)庫業(yè)務(wù)表數(shù)據(jù)為空，退出執(zhí)行
　　如果數(shù)據(jù)倉庫為空，業(yè)務(wù)數(shù)據(jù)庫不為空，則再次讀取業(yè)務(wù)數(shù)據(jù)庫最小時時間
　　如果均不為空，則設(shè)置開始抽取最小時間和最大時間
　　最大時間設(shè)置為整點(diǎn)
　　根據(jù)控制事務(wù)處理大小的粒度，進(jìn)行循環(huán)抽取
　　拼寫SQL語句，寫成類似以下的形式

INSERT INTO TargetTable (TargetFieldList)
　　SELECT SourceFieldList FROM SourceTable
　　WHERE WhereFieldName> BeginDate
　　AND WhereFieldName< BeginDate+粒度

復(fù)制代碼

處理狀態(tài)寫入該字典表
4、有一點(diǎn)要主要的是，在SQL Server中有兩種使用鏈接數(shù)據(jù)庫的方法：

　　OPENQUERY ( linked_server , 'query' )

　　linked_server_name.catalog.schema.object_name的四部分名稱

　　這兩種方法各有利弊，第二種容易閱讀一些;第一種方法據(jù)說把語句提交到源數(shù)據(jù)庫執(zhí)行的，效率可能會高些(實際的資料并未找到)。

　　其次這兩種方法在使用起來語法有點(diǎn)差別，第一種方法采用的是宿主數(shù)據(jù)庫的語法形式，第二種方法采用的是SQLServer本身的語法形式。因此在寫腳本的時候也會有所不同。主要差別是在字段列表和條件處，暫時采用第一種方式。

數(shù)據(jù)倉庫, 數(shù)據(jù)挖掘, 數(shù)據(jù)倉庫, 數(shù)據(jù)挖掘

文庫|博客

沃趣科技-Oracle ASM系列-第十七篇：ASM 5號文件——模板目錄.docx
沃趣科技-Oracle ASM系列-第二十二篇：ASM 8號文件——Used Space Directory.docx
馬珂@DataHunter.pdf
Oracle 12c系列(2)PDB的創(chuàng)建.docx
沃趣科技-Oracle ASM系列-第十二篇：ASM中的force操作.docx
redis源碼閱讀補(bǔ)充說明以及SDS的一點(diǎn)補(bǔ)充
mysql動態(tài)sql批量刪除數(shù)據(jù)
redis源碼閱讀之a(chǎn)e_evport

返回列表

Chinaunix › 論壇 › 數(shù)據(jù)庫技術(shù) › 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 › 關(guān)于數(shù)據(jù)增量抽取模擬實現(xiàn)原理

積分 0, 距離下一級還需積分

亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

關(guān)于數(shù)據(jù)增量抽取模擬實現(xiàn)原理 [復(fù)制鏈接]