亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 3715 | 回復: 0
打印 上一主題 下一主題

關于數據增量抽取模擬實現原理 [復制鏈接]

論壇徽章:
0
跳轉到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2011-02-15 11:12 |只看該作者 |倒序瀏覽
本帖最后由 feiyang10086 于 2011-02-15 11:14 編輯

關于數據增量抽取模擬實現原理




通常為了盡可能的減少對業(yè)務系統(tǒng)的壓力和性能影響,或者因為網絡傳輸異構數據庫等原因,一般都是根據特定的增量抽取原則,將數據從業(yè)務數據庫導出到flat文本文件或者XML文件中,也叫數據緩存區(qū)或者數據登臺區(qū)(這名字起得特別別扭)。本文討論的是從業(yè)務數據庫直接抽取到數據倉庫。數據倉庫是一種體系架構,而不是一種純粹的技術。實際上,大多數數據庫都提供了類似的不同數據庫直接連接的接口,例如SQL Server的鏈接數據庫,Oracle的透明網關等等。

  關于數據的增量抽取也是一個重要的討論話題,其原因主要是在超大數據量情況下任何關系數據庫都無法滿足數據處理的要求。在《數據倉庫》(Inmon)一書中,主要描述了以下3種方法:

1、數據增量抽取,主要是基于時間戳的

2、掃描增量文件,實際上就是關系數據庫的歸檔日志。

3、前后映像對比

  當然每種方法都有其優(yōu)勢和劣勢,本文旨在討論基于時間戳的數據增量抽取的實現,無意探討和比較這三種方法的優(yōu)劣。

  當然在進行基于時間戳的數據增量處理之前,首先要滿足以下假設。

1、假設在業(yè)務數據庫中存在著一個特定的時間屬性,作為增量抽取的唯一標識。

2、假設在這個字段上存在著索引字段。這樣我們的數據增量抽取模擬腳本就不會遭遇到性能瓶頸。當然我們還會通過將大事務盡可能變成小事務的原則進行優(yōu)化。

3、假設業(yè)務數據庫和數據倉庫能夠以某種方式直接連接。

4、抽取過程中,盡量避免數據轉換、清洗的動作,以減少對業(yè)務數據庫的性能影響。

  在滿足了以上條件之后,我們才能進一步考慮數據增量抽取腳本的實現。
  


下面開始對基于時間戳的數據增量抽取進行系統(tǒng)設計:

1、建立鏈接數據庫。

2、首先需要定義一張數據字典表,定義需要進行處理的任務,其中主要包括業(yè)務數據庫和目標數據庫的表名、字段列表、以及where條件等。



3、有了這張字典表就可以開始進行工作了,為了方便表達,暫時處理成偽代碼形式,同時只以一個表的處理為例。

  獲取數據倉庫目標表目前的最大時間(讀取字典表或者當前表均可)
  獲取業(yè)務數據庫業(yè)務表目前的最大時間(需要到業(yè)務系統(tǒng)中去讀取)
  如果業(yè)務數據庫業(yè)務表數據為空,退出執(zhí)行
  如果數據倉庫為空,業(yè)務數據庫不為空,則再次讀取業(yè)務數據庫最小時時間
  如果均不為空,則設置開始抽取最小時間和最大時間
  最大時間設置為整點
  根據控制事務處理大小的粒度,進行循環(huán)抽取
  拼寫SQL語句,寫成類似以下的形式
  1. INSERT INTO TargetTable (TargetFieldList)
  2.   SELECT SourceFieldList FROM SourceTable
  3.   WHERE WhereFieldName> BeginDate
  4.   AND WhereFieldName< BeginDate+粒度
復制代碼
處理狀態(tài)寫入該字典表
4、有一點要主要的是,在SQL Server中有兩種使用鏈接數據庫的方法:

  OPENQUERY ( linked_server , 'query' )

  linked_server_name.catalog.schema.object_name的四部分名稱

  這兩種方法各有利弊,第二種容易閱讀一些;第一種方法據說把語句提交到源數據庫執(zhí)行的,效率可能會高些(實際的資料并未找到)。

  其次這兩種方法在使用起來語法有點差別,第一種方法采用的是宿主數據庫的語法形式,第二種方法采用的是SQLServer本身的語法形式。因此在寫腳本的時候也會有所不同。主要差別是在字段列表和條件處,暫時采用第一種方式。
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復

  

北京盛拓優(yōu)訊信息技術有限公司. 版權所有 京ICP備16024965號-6 北京市公安局海淀分局網監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關心和支持過ChinaUnix的朋友們 轉載本站內容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP