- 論壇徽章:
- 3
|
本帖最后由 有機天使 于 2014-04-01 10:53 編輯
環(huán)境描述:兩臺SUN M8000,每臺主機劃分了兩個域(域0與域1)其中兩個域0做了HA,版本為Solaris Cluster 3.2u3
故障描述:1、關機時,一臺主機的0域關閉會自動引起另外一臺主機的0域重啟,但由于有HA機制,造成重啟的主機必須等待關機的主機開啟后才能完全進入系統,這就造成了一個死循環(huán)了,無法正常關閉系統
2、開機的時候,會報錯:
111.png (320.63 KB, 下載次數: 403)
下載附件
2014-02-18 09:25 上傳
我用單用戶模式進入系統后,發(fā)現存儲沒掛載,用fsck –y命令后,存儲才掛載
3、查看SUN Cluster日志,發(fā)現頻繁報這個警告:
cl_runtime: [ID 856360 kern.warning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the regi
這3個問題該如何解決啊 幫幫忙~~
首先感謝本帖中的所有跟帖雷鋒,小弟在此謝過了。目前單位的仲裁盤脫機故障已經解決了,幾乎完全參考了@東方蜘蛛給出的方案,特別是他博客中提及的方案:http://blog.chinaunix.net/uid-431820-id-29313.html很受用。這里再次感謝;還有@junfer,@byuq也給我指出了光明大道。我當初差點想用2位說的方法了,但最后存儲還是有剩余空間了,所以劃出了1g的空間做仲裁
大致步驟:
1、對數據庫進行了備份;
2、從存儲上劃分了1G的空間給solaris
3、scsetup,將新劃分的1g作為仲裁盤,online狀態(tài)
4、刪除之前脫機的仲裁盤
具體步驟隨后我會寫出詳細過程給大家進行參考,其實基本和@東方蜘蛛的博客說的一模一樣
---------------------------------------------------------------------------分割線------------------------------------------------------------------------------
首先,我要道歉,發(fā)帖這么久一直沒做更新,耽擱這么久主要也是雖然大致了解了處理過程,但主機一直無法關機,所以未進行處理,前陣子才好不容易申請了關機,現在我將重頭把故障現象、分析的原因以及處理的過程進行總結與梳理,因為當初處理故障的時候的記錄未記錄下來,加上是初學,有的地方如果描述的不對,希望各位大神能及時指正:
一、故障描述
1、關機時,一臺主機的0域關閉會自動引起另外一臺主機的0域重啟,但由于有HA機制,造成重啟的主機必須等待關機的主機開啟后才能完全進入系統,這就造成了一個死循環(huán)了,無法正常關閉系統
2、開機的時候,會報錯:
我用單用戶模式進入系統后,發(fā)現存儲沒掛載,用fsck –y命令后,存儲才掛載
3、查看SUN Cluster日志,發(fā)現頻繁報這個警告:
cl_runtime: [ID 856360 kern.warning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the regi
二、分析過程
1、查看dmesg信息
Feb 7 13:27:28 rdmsdb02a cl_runtime: [ID 856360 kern.war
ning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the registration keys failed on quorum device /dev/did/rdsk/d4s2 with error 22.
結論: 通過這個信息判斷可能是quorum disk磁盤存在問題
2、查看cluster狀態(tài)
# scstat
-- Quorum Votes by Device (current status) --
Device Name Present Possible Status
----------- ------- -------- ------
Device votes: /dev/did/rdsk/d4s2 0 1 Offline
結論:確定quorum disk磁盤offline
4、mount信息
查看/etc/vfstab,發(fā)現
“options”選項的信息為logging,所以推斷系統未采用文件系統日志功能,故在異常關機后,有可能需要手動執(zhí)行fsck命令(不知道這樣推斷是否合理?)
三、結論
1、關機錯誤
故障概述:一臺主機的0域關閉會自動引起另外一臺主機的0域重啟,但由于有HA機制,造成重啟的主機必須等待關機的主機開啟后才能完全進入系統,這就造成了一個死循環(huán)了,無法正常關閉系統
故障原因:根據以上問題分析,判斷此故障和quorum disk狀態(tài)為 offline有關。根據cluster的設置原理,quorum disk為重要的投票點,當某個節(jié)點出現問題或兩節(jié)點通訊中斷后,為了防止“腦裂”情況出現,權值低的系統自動重啟,當quorum disk出現問題,兩個節(jié)點的票權相同,且都為權值低的節(jié)點,某個節(jié)點出現問題或兩節(jié)點通訊中斷,兩節(jié)點都為權值低的節(jié)點,故出現重啟現象。
所以此故障是由于Quorum disk 狀態(tài)為offline,節(jié)點啟動的過程中兩節(jié)點都不能獲取quorum disk的投票造成反復重啟。
解決方法:新增一塊1GB quorum disk專用于quorum disk。刪除之前offline的仲裁盤
2、開機錯誤
故障概述:系統開機后出現循環(huán)報錯,通過單用戶模式進入系統后需用fsck命令校驗磁盤后才可掛載上存儲磁盤。
故障原因:根據文件系統mount選項為logging,系統在文件系統出現故障時,并不會自動進行fsck處理,需手動干預,所以開機后,由于文件系統報錯,且沒有自動執(zhí)行fsck,造成了系統無法開機,需進行人工fsck后才掛載存儲的錯誤。這也是造成了quorum disk 狀態(tài)為offline的根本原因。(分析是否正確??)
解決方法:修改文件系統mount選項,將vfstab文件中的文件系統logging選項調整為缺省
3、quorum disk故障
故障現象:查看/var/adm/messages日志發(fā)現有持續(xù)告警信息:Feb 14 03:10:40 rdmsdb01a cl_runtime: [ID 856360 kern.warning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the regi
故障原因:由于quorum disk(4.2T,也是數據盤)盤過大,在調整mount選項后,如文件系統出現問題,在系統啟動時依然會由于fsck過程過長,造成quorum disk磁盤獲取失敗的問題。
解決方法:將大磁盤分解為多塊較小容量的磁盤,磁盤數小于cpu數,但風險較大,暫不實施
四、問題處理步驟
1、停止所有資源
#scswitch -F -g oradb_rg //停止所有資源(VIP也停掉)
#scswitch -n -j lh_oracle //關閉各個資源(開機時需手動開啟)
#scswitch -n -j oracle-re
#scswitch -n -j oradata-re
#scswitch -n -j archive-re
#scswitch -n -j ora-server-re
#scswitch -n -j ora-lsnr-re
# scstat -g //查看資源組及所有資源狀態(tài)
2、修改vsftab文件
把文件系統logging選項調整為缺省,即將“options”選項的信息的“l(fā)ogging”換成“-”
3、從存儲劃分一塊1g的磁盤給系統
4、操作系統識別并配置磁盤
#cfgadm –al //兩個節(jié)點均執(zhí)行此命令,顯示有關 SCSI 設備(如磁盤和磁帶)的信息。
#format
AVAILABLE DISK SELECTIONS:
0. c0**d0 <**>
****
1. c0**d0 <**>
****
2. c1**d1 <HITACHI-OPEN-V-SUN cyl 278 alt 2 hd 15 sec 512>
****
3. c2**d1 <HITACHI-OPEN-V-SUN cyl 278 alt 2 hd 15 sec 512>
****
4. c3**d0 <HITACHI-OPEN-V*16 -SUN-4.16TB>
****
目前存儲給系統新劃分了1G的存儲空間,但由于有多塊HBA卡,所有系統識別時會將同一塊存儲空間識別為多塊同一大小的硬盤(紅色表示的2和3),故要通過多路徑軟件進行配置,以便存儲劃分的1g空間在系統上識別為一塊1g的硬盤。
#cd /opt/DynamicLinkManager/bin //多路徑軟件所在目錄
#./dlmsetconf //配置多路徑軟件,輸入命令后系統會自動進行相關設置
KAPL10242-I To configure HDLM, device files of sd/ssd devices managed by HDLM are removed after reboot.
Do you want to continue? [y/n]:n
KAPL10256-I The user terminated the operation.
#sync;sync;reboot -- -r //重啟系統
#format //系統識別出的新劃分的1g磁盤,且只有一塊
AVAILABLE DISK SELECTIONS:
0. c0**d0 <**>
****
1. c0**d0 <**>
****
2. c3**d0 <HITACHI-OPEN-V*16 -SUN-4.16TB>
****
3. c1**d1 <HITACHI-OPEN-V-SUN cyl 278 alt 2 hd 15 sec 512>
****
278個磁柱,每個磁柱有15個磁頭,每個磁頭管理512個扇區(qū),每個扇區(qū)的大小均為512字節(jié),所有每個磁柱的大小為15*512*512= 3932160 bytes;一共有278個磁柱,所有此磁盤的大小為278*3932160約等于1G(這樣算合適不?希望給予指正)
Specify disk (enter its number): 3
selecting c3t50060E8005638900d1
[disk formatted]
format> label //將新標簽寫入當前磁盤,標簽一般存放了關磁盤的控制器、幾何參數和分片的信息,為磁盤設置標簽通常是在系統安裝過程中或者使用新磁盤時進行的,一般磁盤出廠時都自帶標簽,但異構環(huán)境下,solaris有可能無法識別標簽,所以最好重新添加標簽。
Ready to label disk, continue? Y
format> quit
#scdidadm -L //查看SUN cluster管理的磁盤情況,找出新加磁盤對應得DXX的號.
以便選擇作為仲裁盤的磁盤序號,該磁盤必須兩個節(jié)點都可以訪問的共享磁盤,這里我們選擇的是DID號為d8的新劃分的1G磁盤。
#scdidadm –C //將不存在的設備上的映射關系刪除
#sync;sync;init 6 //重啟系統
5、調整quorum disk
# scsetup //磁盤組注冊為Sun Cluster 磁盤設備組
*** Main Menu ***
Please select from one of the following options:
1) Quorum
2) Resource groups
3) Cluster interconnect
4) Device groups and volumes
5) Private hostnames
6) New nodes
7) Other cluster properties
?) Help with menu options
q) Quit
Option: 1
*** Quorum Menu ***
Please select from one of the following options:
1) Add a quorum disk
2) Remove a quorum disk
?) Help
q) Return to the Main Menu
Option: 1 // 將新劃分的1g的磁盤設置為仲裁盤,
>>> Add a Quorum Disk <<<
This option is used to add a quorum disk to the cluster
configuration. SCSI-2 disks can be used for dual-ported quorum
devices. However, SCSI-3 PGR disks must be used when there are more
than two node-to-disk paths. You can use a disk containing user data
or one that is a member of a device group as a quorum device. For
more information on supported quorum device topologies, see the Sun
Cluster documentation.
Each quorum disk must be connected to at least two nodes. Adding a
quorum device automatically configures node-to-disk paths for all
nodes attached to the disk. Later, if you add more nodes to the
cluster, you might need to update these paths by removing then adding
back the quorum device.
Is it okay to continue (yes/no) [yes]?
Which global device do you want to use (d<N>)? d8 //選擇使用哪個全局設備,這里用d8代替d4
Is it okay to proceed with the update (yes/no) [yes]? yes
scconf -a -q globaldev=d8 //至此d8作為一個新的仲裁盤已經添加完畢。
此時,查看cluster狀態(tài),會發(fā)現仲裁盤會有兩塊,一塊online,一塊offline
# scstat -q
-- Quorum Votes by Device –
Device Name Present Possible Status
Device votes: /dev/did/rdsk/d4s2 0 1 Offline
Device votes: /dev/did/rdsk/d8s2 1 1 Online
# scconf -r -q globaldev=d4 //刪除之前offline的d4刪除
此時,再來查看cluster的狀態(tài):
# scstat -q
-- Quorum Votes by Device (current status)
Device Name Present Possible Status
----------- ------- -------- ------
Device votes: /dev/did/rdsk/d8s2 1 1 Online //只有一個仲裁盤且為online狀態(tài)
# scswitch -Z -g oradb_rg //開啟所有資源
#scstat -g //查看資源狀態(tài)
所有資源都啟動,則一切ok
這樣的過程和表述,希望各位大神能給我指正下,特別是一些細節(jié)的地方,如有不對或不當之處,請告知 謝謝各位
|
|