- 論壇徽章:
- 0
|
同意四樓意見,先工作,工作了,就知道高做什么了,祝你圓自己的夢
大家好,以下是我寫的集群方案,歡迎批評指正,另外我想應征中間件論壇的斑竹,希望網(wǎng)友多支持,在這里先謝過,給大家一個鏈接,里面有關于雙機的資料,http://www.dbserver.com.cn/company/index.php?id=263
我的qq:365867838郵箱(MSN):xintao800@sohu.com
一、概述:
大型應用系統(tǒng)中,大多具有分布式應用系統(tǒng)的特性。一個典型的分布式應用系統(tǒng)具有一個或多個數(shù)據(jù)庫服務器,業(yè)務邏輯服務器,以及往往成千上萬的同時在線的客戶。為了保證這樣的系統(tǒng)能夠安全,可靠地運行,以及當故障發(fā)生時能夠迅速地恢復系統(tǒng), 我們總是試圖在這些服務器之間建立起互為補充的備份關系,以便當某服務器節(jié)點發(fā)生故障時能迅速地由其他節(jié)點接管其工作。因此這些服務器之間要保持充分的同步性。各種服務器的功能千差萬別,并不存在能一勞永逸地解決所有問題的方案。
PlusWell Data Replication 軟件就是在這種需求下應運而生的,PlusWell Data Replication(以下簡稱PDR 軟件)在商業(yè)應用過程中可以將一個用戶數(shù)據(jù)庫安全有效的同步的另一同型號的數(shù)據(jù)系統(tǒng)中并使兩個數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)保持一致。
但數(shù)據(jù)保證一致并未決絕單點故障的問題,假如我們的應用服務器在運行過程中出現(xiàn)人為或意外的致命錯誤,導致無法訪問,這將為我們的企業(yè)帶來無法預計的損失。為此我們將PlusWell Cluster軟件(以下簡稱HA軟件),與PDR軟件配合使用,在保證數(shù)據(jù)一致的前提下徹底解決了單點故障的問題。
二、方案拓撲:
三、雙機熱備份運行模式:
在正常情況下,一臺為主機處于工作作態(tài),另一臺為從機,作為備份機,并時刻監(jiān)視主機的運行情況。當主臺主機出現(xiàn)異常時,不能支持信息系統(tǒng)正常運營,從機則主動接管(Take Over)主機的作業(yè)及IP地址,繼續(xù)主持信息的運營,從而保證信息系統(tǒng)能夠不間斷的運行,而達到不停機的功能(Non-Stop),當主機恢復后,自動接管原來的作業(yè),從機則將為備份機,并時刻監(jiān)視主機的運行情況。
四、HA軟件容錯原理:
(一) PlusWell Cluster容錯軟件提供了一個完全容錯的軟件解決方案,并提供數(shù)據(jù)、應用程序和通信資源的高度可用性。PlusWell Cluster容錯軟件不需要任何特別的容錯硬件,并訪問特定節(jié)點的配置數(shù)據(jù)。PlusWell Cluster容錯軟件會自動地提供錯誤檢測和現(xiàn)場恢復。
在出現(xiàn)故障的情況下,PlusWell Cluster容錯軟件會將保護資源自動轉(zhuǎn)換到一個根據(jù)預先設定好優(yōu)先權(quán)的系統(tǒng)。在實際進行切換用戶時, 會經(jīng)歷一個十分短暫的休眠,但是,當系統(tǒng)完成了切換操作后,PlusWell Cluster容錯軟件會在所選擇的節(jié)點上自動地恢復操作。
可以被PlusWell Cluster容錯軟件保護起來的資源是:
卷(Volume)
IP 地址
共享文件
管理器服務器名稱
應用程序
定義的用戶
2、心跳故障檢測Heartbeat
PlusWell Cluster容錯軟件在集群節(jié)點間保持著間歇的通信信號,也叫做心跳信號,是錯誤檢測的一個機制。即通過每一個通信路徑,在兩個對等系統(tǒng)之間進行周期性的握手,如果連續(xù)沒有收到的心跳信號到了一定的數(shù)目,PlusWell Cluster 容錯軟件就把這條路徑標示為失效(紅色)。
如果你只定義了一條通信路徑,當PlusWell Cluster 容錯軟件把這唯一的一條通信路徑標為失效時, PlusWell Cluster容錯軟件便立即開始恢復過程。然而,如果你有冗余路徑, PlusWell Cluster容錯軟件能夠通過第二條路徑確定是系統(tǒng)故障還是只是通信路徑有問題。如果PlusWell Cluster 容錯軟件開啟優(yōu)先級第二的通信路徑并收到了心跳信號,它就不開始failover恢復,只需要把第一條通信路徑標成紅色(失效),作為信號告訴你需要修復有故障的路徑。
一般情況下PlusWell Cluster容錯軟件 只在下列事件發(fā)生時,啟動系統(tǒng)恢復功能:
所有的通信路徑故障。如果所有節(jié)點都沒能收到心跳信號, 把所有通信路徑都標為失效, PlusWell Cluster 容錯軟件開始安全檢查。
安全檢查失敗。當所有通信路徑故障時,PlusWell Cluster容錯軟件向整個網(wǎng)絡發(fā)出安全檢查信號。如果信號指出配對系統(tǒng)還“活”著的時候,PlusWell Cluster容錯軟件不啟動Failover。如果安全檢查沒從配對節(jié)點返回信號,PlusWell Cluster容錯軟件就開始Failover。
因而,為了減少由于潛在的通訊錯誤所引起的不必要的系統(tǒng)切換,建議您使用不同介質(zhì)的多條通信路徑。
3、 通信路徑
PlusWell Cluster容錯軟件支持在節(jié)點之間和心跳通訊中,使用如下通訊路徑:
(1) socket,即套接字。你使用任何的網(wǎng)絡硬件接口,只要它能夠支持TCP/IP的通訊協(xié)議。這樣的硬件包括:以太網(wǎng)、快速以網(wǎng)。
(2)串行口 在PlusWell Cluster容錯軟件配置中, 你應當配置有一個串行口通信路徑。串口通信路徑需要利用RS232的擬調(diào)解線路來與PlusWell Cluster容錯軟件系統(tǒng)相連接。
PlusWell Cluster 容錯軟件假定當通過心跳信號檢測其它服務器失敗時,則認為此服務器是關閉的。因此,為了避免不必要的失效切換,最好建立兩種以上獨立的物理路徑,使用至少兩種心跳。
例如,如果兩個服務器被一個串口連接起來,并且,從屬服務器來的心跳信號無法被主服務器所檢測到,則下面之一是可能引起這一現(xiàn)象的原因:
服務器的RS-232卡或者端口失敗
電纜失效
主服務器暫時掛起
主服務器失敗
失效切換只可能在最后一種情況下才發(fā)生。因此,節(jié)點間的多種通信路徑可以幫助避免不必要的失效切換。
(二)PlusWell Cluster容錯軟件配置示范
使用帶有PlusWell PDR功能的PlusWell Cluster 容錯軟件 來進行配置,其中 Server1 是主服務器,Server2 是從服務器。當一個客戶向 Server1上的數(shù)據(jù)庫發(fā)出寫命令,PlusWell PDR 軟件將寫命令同時發(fā)送給 Server2。因此,兩處系統(tǒng)能夠同時更新,因此主、從服務鏡像卷中的數(shù)據(jù)一致性得以保證。、
五、|鏡相軟件PlusWellMirror雙機實時同步:
PlusWell Mirror(鏡像)軟件,用戶無需較貴Raid磁盤子系統(tǒng),也不必考慮主機的距離, 主服務器的數(shù)據(jù)通過Mirror軟件將數(shù)據(jù)實時的復制到備用服務器上,保證主備服務器上的數(shù)據(jù)的一致性,這樣完成主備服務器的集群熱備功能。
六、總部數(shù)據(jù)中心配置建議:
數(shù)據(jù)中心是各個地區(qū)分支機構(gòu)將數(shù)據(jù)匯總的重中之重,該中心應當具有相當高的安全性與高可用性。我們建議用戶在數(shù)據(jù)中心同樣搭建以雙機模式的熱備份系統(tǒng),且使用共享磁盤陣列作為數(shù)據(jù)存儲區(qū)域,磁盤陣列大多都是采用雙電源,冗于風扇,將單點故障降至最低。
七、分支結(jié)構(gòu)與數(shù)據(jù)中心同步
由于各地區(qū)每日生成大量數(shù)據(jù)需要及時同步到中心服務器,供其他區(qū)縣共享或等待審批。那么在區(qū)縣與中心服務器就需要涉及數(shù)據(jù)同步到總部數(shù)據(jù)中心的環(huán)節(jié)。為16個分支節(jié)點配置PDR軟件,將每個節(jié)點的數(shù)據(jù)實時同步到數(shù)據(jù)中心。 |
|