- 論壇徽章:
- 0
|
企業(yè)和事業(yè)單位的運轉(zhuǎn)越來越依賴于計算機系統(tǒng),如果一旦這個數(shù)據(jù)處理中心無法正常運轉(zhuǎn),就會造成業(yè)務(wù)停頓,導(dǎo)致不可挽回的損失。
藍(lán)科泰達(dá)憑借其豐富的研發(fā)經(jīng)驗,為您提供高可用性系列產(chǎn)品和優(yōu)質(zhì)的服務(wù),推出了藍(lán)科泰達(dá)雙機容錯解決方案,目的在于保證數(shù)據(jù)永不丟失和系統(tǒng)永不停頓。
一、 拓?fù)浣Y(jié)構(gòu)圖
藍(lán)科泰達(dá)高可用性平臺設(shè)計方案,雙機熱備份(Hot Standby),采用PlusWell Cluster 容錯軟件。
二、方案特點
藍(lán)科泰達(dá)雙機容錯系統(tǒng)結(jié)合了藍(lán)科泰達(dá)服務(wù)器鏡像產(chǎn)品的安全可靠性與雙機容錯技術(shù)高可用性的優(yōu)點,相互配合二者的優(yōu)勢。藍(lán)科泰達(dá)網(wǎng)絡(luò)服務(wù)器針對雙機容錯技術(shù)做了許多優(yōu)化和改進,滿足了雙機所有硬件的連接要求,并與第三方軟件廠商合作,根據(jù)應(yīng)用環(huán)境的實際情況,適用于UNIX平臺上、Windows NT平臺上以及開放源代碼Linux平臺上的多種集群軟件。藍(lán)科泰達(dá)雙機容錯系統(tǒng)是藍(lán)科泰達(dá)提供的全套解決方案,并由藍(lán)科泰達(dá)提供技術(shù)保障。
三、雙機熱備份(Hot Active) 模式
在正常情況下,一臺為主機處于工作作態(tài),另一臺為從機,作為備份機,并時刻監(jiān)視主機的運行情況。當(dāng)主臺主機出現(xiàn)異常時,不能支持信息系統(tǒng)正常運營,從機則主動接管(Take Over)主機的作業(yè)及IP地址,繼續(xù)主持信息的運營,從而保證信息系統(tǒng)能夠不間斷的運行,而達(dá)到不停機的功能(Non-Stop),當(dāng)主機恢復(fù)后,自動接管原來的作業(yè),從機則將為備份機,并時刻監(jiān)視主機的運行情況。
四、軟件容錯原理
(一) PlusWell Cluster容錯軟件提供了一個完全容錯的軟件解決方案,并提供數(shù)據(jù)、應(yīng)用程序和通信資源的高度可用性。PlusWell Cluster容錯軟件不需要任何特別的容錯硬件,并訪問特定節(jié)點的配置數(shù)據(jù)。PlusWell Cluster容錯軟件會自動地提供錯誤檢測和現(xiàn)場恢復(fù)。
在出現(xiàn)故障的情況下,PlusWell Cluster容錯軟件會將保護資源自動轉(zhuǎn)換到一個根據(jù)預(yù)先設(shè)定好優(yōu)先權(quán)的系統(tǒng)。在實際進行切換用戶時, 會經(jīng)歷一個十分短暫的休眠,但是,當(dāng)系統(tǒng)完成了切換操作后,PlusWell Cluster容錯軟件會在所選擇的節(jié)點上自動地恢復(fù)操作。
可以被PlusWell Cluster容錯軟件保護起來的資源是:
卷(Volume)
IP 地址
共享文件
管理器服務(wù)器名稱
應(yīng)用程序
定義的用戶
2、心跳故障檢測Heartbeat
PlusWell Cluster容錯軟件在集群節(jié)點間保持著間歇的通信信號,也叫做心跳信號,是錯誤檢測的一個機制。即通過每一個通信路徑,在兩個對等系統(tǒng)之間進行周期性的握手,如果連續(xù)沒有收到的心跳信號到了一定的數(shù)目,PlusWell Cluster 容錯軟件就把這條路徑標(biāo)示為失效(紅色)。
如果你只定義了一條通信路徑,當(dāng)PlusWell Cluster 容錯軟件把這唯一的一條通信路徑標(biāo)為失效時, PlusWell Cluster容錯軟件便立即開始恢復(fù)過程。然而,如果你有冗余路徑, PlusWell Cluster容錯軟件能夠通過第二條路徑確定是系統(tǒng)故障還是只是通信路徑有問題。如果PlusWell Cluster 容錯軟件開啟優(yōu)先級第二的通信路徑并收到了心跳信號,它就不開始failover恢復(fù),只需要把第一條通信路徑標(biāo)成紅色(失效),作為信號告訴你需要修復(fù)有故障的路徑。
一般情況下PlusWell Cluster容錯軟件 只在下列事件發(fā)生時,啟動系統(tǒng)恢復(fù)功能:
所有的通信路徑故障。如果所有節(jié)點都沒能收到心跳信號, 把所有通信路徑都標(biāo)為失效, PlusWell Cluster 容錯軟件開始安全檢查。
安全檢查失敗。當(dāng)所有通信路徑故障時,PlusWell Cluster容錯軟件向整個網(wǎng)絡(luò)發(fā)出安全檢查信號。如果信號指出配對系統(tǒng)還“活”著的時候,PlusWell Cluster容錯軟件不啟動Failover。如果安全檢查沒從配對節(jié)點返回信號,PlusWell Cluster容錯軟件就開始Failover。
因而,為了減少由于潛在的通訊錯誤所引起的不必要的系統(tǒng)切換,建議您使用不同介質(zhì)的多條通信路徑。
3、 通信路徑
PlusWell Cluster容錯軟件支持在節(jié)點之間和心跳通訊中,使用如下通訊路徑:
(1) socket,即套接字。你使用任何的網(wǎng)絡(luò)硬件接口,只要它能夠支持TCP/IP的通訊協(xié)議。這樣的硬件包括:以太網(wǎng)、快速以網(wǎng)。
(2)串行口 在PlusWell Cluster容錯軟件配置中, 你應(yīng)當(dāng)配置有一個串行口通信路徑。串口通信路徑需要利用RS232的擬調(diào)解線路來與PlusWell Cluster容錯軟件系統(tǒng)相連接。
PlusWell Cluster 容錯軟件假定當(dāng)通過心跳信號檢測其它服務(wù)器失敗時,則認(rèn)為此服務(wù)器是關(guān)閉的。因此,為了避免不必要的失效切換,最好建立兩種以上獨立的物理路徑,使用至少兩種心跳。
例如,如果兩個服務(wù)器被一個串口連接起來,并且,從屬服務(wù)器來的心跳信號無法被主服務(wù)器所檢測到,則下面之一是可能引起這一現(xiàn)象的原因:
服務(wù)器的RS-232卡或者端口失敗
電纜失效
主服務(wù)器暫時掛起
主服務(wù)器失敗
失效切換只可能在最后一種情況下才發(fā)生。因此,節(jié)點間的多種通信路徑可以幫助避免不必要的失效切換。
(二)PlusWell Cluster容錯軟件配置示范
使用帶有PlusWell Cluster 鏡像功能的PlusWell Cluster 容錯軟件 來進行配置,其中 Server1 是主服務(wù)器,Server2 是從服務(wù)器。
當(dāng)一個客戶向 Server1上的鏡像卷發(fā)出寫命令,PlusWell Cluster 鏡像軟件保證寫命令通過網(wǎng)絡(luò)送給 Server2,Server2上的寫操作成功完成時,Server1上的寫操作才能完成。因此,兩處系統(tǒng)能夠同時更新,因此主、從服務(wù)鏡像卷中的數(shù)據(jù)一致性得以保證。
軟件、硬件配置
1、軟件:PlusWell Cluster
2、硬件:服務(wù)器可以是任何INTEL基礎(chǔ)上的平臺,兩臺Server的型號、配置不必一致,只需硬件平臺能保證系統(tǒng)運行。
五、雙機熱備+數(shù)據(jù)時實備份
工作方式分如下兩種方式:如圖1和圖2
(圖1)
(1)2對1備份方式。(利用磁盤陣列+HA+Mirror完成雙機熱備份及數(shù)據(jù)時實備份)
主服務(wù)器與備用服務(wù)器組成一對雙機熱備份系統(tǒng),數(shù)據(jù)備份服務(wù)器主要做數(shù)據(jù)時實的備份。
HA工作原理:
利用PlusWell HA 及 PlusWll Mirror兩個軟件可以將主服務(wù)器與備用服務(wù)器組成一對雙機熱備系統(tǒng)。
數(shù)據(jù)備份服務(wù)器:主要接收主服務(wù)器與備份服務(wù)的數(shù)據(jù),做數(shù)據(jù)的時實備份。
(2)層疊方式(利用純軟件方式雙機熱備及Mirror的時實備份功能)
(圖2)
HA工作原理:
利用PlusWell HA 及 PlusWll Mirror兩個軟件可以將主服務(wù)器與備用服務(wù)器組成一對雙機熱備系統(tǒng)。
備份工作原理:
備份服務(wù)器由HA系統(tǒng)的備機來提供數(shù)據(jù)的備份。
1、PlusWell Cluster Mirroring運行機制
I、通訊路徑
“Heartbeat”是服務(wù)器間發(fā)出的周期性檢測信息,它允許PlusWell Cluster 容錯軟件決定服務(wù)器的狀態(tài)。當(dāng)一個服務(wù)器向另一處服務(wù)器發(fā)送一個“Heartbeat”消息,并且在規(guī)定時間段里沒有得到任何回應(yīng)時, 發(fā)送消息的服務(wù)器開始評測接收消息的服務(wù)器是否正在發(fā)生故障。多種“Heartbeat”檢測信號保證故障檢測的可靠性,以防止不必要的資源服務(wù)切換。PlusWell Cluster 容錯軟件為PlusWell Cluster鏡像提供下列途徑上的“Heartbeat”通信:
(1) Socket (TCP/IP )
(2) RS-232 TTY通信端口(Communications port )
PlusWell Cluster鏡像軟件消除了共享SCSI 的需要。
II、主服務(wù)器發(fā)生故障
客戶向Server1上運行的一個程序發(fā)送一個請求,而Server1出現(xiàn)寫錯誤時,使用帶有PlusWell Cluster鏡像功能的PlusWell Cluster 容錯軟件能夠檢測出系統(tǒng)失敗。然后,PlusWell Cluster 容錯軟件 執(zhí)行恢復(fù)規(guī)則,試圖關(guān)閉Server1上的應(yīng)用,并且在Server2上重新啟動它們。Server2現(xiàn)在承擔(dān)主服務(wù)器的角色,鏡像卷地址從Server1轉(zhuǎn)移到Server2上去,這個轉(zhuǎn)換過程對用戶來說是透明的,客戶一般不會發(fā)現(xiàn)系統(tǒng)曾經(jīng)發(fā)生這樣的故障。
一旦系統(tǒng)發(fā)生的故障被被糾正過來,管理員必須重新同步鏡像卷。重新同步這些卷并被鎖定,目的是不接受任何客戶的存取。在這個過程中,非鏡像應(yīng)用不會受到影響,因此這些應(yīng)用可以毫無干擾的繼續(xù)運行。系統(tǒng)管理員可以選擇何時對鏡像卷進行同步,通過提供選擇時間的靈活性達(dá)到對整個系統(tǒng)的影響減為最小。
重新同步主服務(wù)器和從服務(wù)器上鏡像的時間依賴于卷的大小。 一般情況下,在100MB 以太網(wǎng)上, 恢復(fù)1Gigabyte(GB)的數(shù)據(jù)只需要10分鐘。
III、從服務(wù)器發(fā)生故障
當(dāng)從系統(tǒng)發(fā)生故障時,受影響的鏡像卷標(biāo)志為Broken。有必要糾正這些故障,并重新同步有關(guān)的卷。當(dāng)從系統(tǒng)發(fā)生故障時,任何寫請求不會送給從系統(tǒng)。當(dāng)從服務(wù)器發(fā)生故障后再次恢復(fù)時,鏡像管理器用來重新同步主鏡像卷和從鏡像卷。
北京藍(lán)科泰達(dá)科技有限公司
地 址:北京市海淀區(qū)西二旗中路6號領(lǐng)秀硅谷C5-107
銷售熱線010-80961548手機:13910591907/13039961081
聯(lián)系人: 黃經(jīng)理
Mail:huangxintao@Lantide.com
技術(shù)支持:010-80961548
24小時支持熱線:
小靈通:010-80961548 網(wǎng)址:http://www.dbserver.com.cn/company/index.php?id=263
MSN intao800@sohu.com QQ:365867838 |
|