污网站免费,天天狠天天天天透在线,亚洲,国产,日韩,综合一区

有機天使

稍有積蓄

論壇徽章:: 3

電梯直達

1樓 [收藏(0)] [報告]

發(fā)表于 2014-02-18 09:33 |只看該作者 |倒序瀏覽

本帖最后由有機天使于 2014-04-01 10:53 編輯

   環(huán)境描述：兩臺SUN M8000，每臺主機劃分了兩個域（域0與域1）其中兩個域0做了HA，版本為Solaris Cluster 3.2u3

   故障描述：1、關機時，一臺主機的0域關閉會自動引起另外一臺主機的0域重啟，但由于有HA機制，造成重啟的主機必須等待關機的主機開啟后才能完全進入系統，這就造成了一個死循環(huán)了，無法正常關閉系統

               2、開機的時候，會報錯：

                     我用單用戶模式進入系統后，發(fā)現存儲沒掛載，用fsck –y命令后，存儲才掛載
               3、查看SUN Cluster日志，發(fā)現頻繁報這個警告：
cl_runtime: [ID 856360 kern.warning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the regi

這3個問題該如何解決啊幫幫忙~~

首先感謝本帖中的所有跟帖雷鋒，小弟在此謝過了。目前單位的仲裁盤脫機故障已經解決了，幾乎完全參考了@東方蜘蛛給出的方案，特別是他博客中提及的方案：http://blog.chinaunix.net/uid-431820-id-29313.html很受用。這里再次感謝；還有@junfer，@byuq也給我指出了光明大道。我當初差點想用2位說的方法了，但最后存儲還是有剩余空間了，所以劃出了1g的空間做仲裁
大致步驟：
1、對數據庫進行了備份；
2、從存儲上劃分了1G的空間給solaris
3、scsetup，將新劃分的1g作為仲裁盤，online狀態(tài)
4、刪除之前脫機的仲裁盤
具體步驟隨后我會寫出詳細過程給大家進行參考，其實基本和@東方蜘蛛的博客說的一模一樣

---------------------------------------------------------------------------分割線------------------------------------------------------------------------------

首先，我要道歉，發(fā)帖這么久一直沒做更新，耽擱這么久主要也是雖然大致了解了處理過程，但主機一直無法關機，所以未進行處理，前陣子才好不容易申請了關機，現在我將重頭把故障現象、分析的原因以及處理的過程進行總結與梳理，因為當初處理故障的時候的記錄未記錄下來，加上是初學，有的地方如果描述的不對，希望各位大神能及時指正：
  一、故障描述

1、關機時，一臺主機的0域關閉會自動引起另外一臺主機的0域重啟，但由于有HA機制，造成重啟的主機必須等待關機的主機開啟后才能完全進入系統，這就造成了一個死循環(huán)了，無法正常關閉系統

  2、開機的時候，會報錯：

我用單用戶模式進入系統后，發(fā)現存儲沒掛載，用fsck –y命令后，存儲才掛載

3、查看SUN Cluster日志，發(fā)現頻繁報這個警告：

  cl_runtime: [ID 856360 kern.warning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the regi

二、分析過程

1、查看dmesg信息

   Feb 7 13:27:28 rdmsdb02a cl_runtime: [ID 856360 kern.war
ning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the registration keys failed on quorum device /dev/did/rdsk/d4s2 with error 22.

結論： 通過這個信息判斷可能是quorum disk磁盤存在問題

2、查看cluster狀態(tài)
   # scstat
-- Quorum Votes by Device (current status) --
                  Device Name       Present  Possible  Status
                  -----------       ------- -------- ------
  Device votes:    /dev/did/rdsk/d4s2 0       1    Offline

結論：確定quorum disk磁盤offline

4、mount信息

  查看/etc/vfstab，發(fā)現
“options”選項的信息為logging，所以推斷系統未采用文件系統日志功能，故在異常關機后，有可能需要手動執(zhí)行fsck命令（不知道這樣推斷是否合理？）

三、結論

1、關機錯誤
  故障概述：一臺主機的0域關閉會自動引起另外一臺主機的0域重啟，但由于有HA機制，造成重啟的主機必須等待關機的主機開啟后才能完全進入系統，這就造成了一個死循環(huán)了，無法正常關閉系統

   故障原因：根據以上問題分析，判斷此故障和quorum disk狀態(tài)為 offline有關。根據cluster的設置原理，quorum disk為重要的投票點，當某個節(jié)點出現問題或兩節(jié)點通訊中斷后，為了防止“腦裂”情況出現，權值低的系統自動重啟，當quorum disk出現問題，兩個節(jié)點的票權相同，且都為權值低的節(jié)點，某個節(jié)點出現問題或兩節(jié)點通訊中斷，兩節(jié)點都為權值低的節(jié)點，故出現重啟現象。
所以此故障是由于Quorum disk 狀態(tài)為offline，節(jié)點啟動的過程中兩節(jié)點都不能獲取quorum disk的投票造成反復重啟。

  解決方法：新增一塊1GB quorum disk專用于quorum disk。刪除之前offline的仲裁盤

2、開機錯誤
故障概述：系統開機后出現循環(huán)報錯，通過單用戶模式進入系統后需用fsck命令校驗磁盤后才可掛載上存儲磁盤。

故障原因：根據文件系統mount選項為logging，系統在文件系統出現故障時，并不會自動進行fsck處理，需手動干預，所以開機后，由于文件系統報錯，且沒有自動執(zhí)行fsck，造成了系統無法開機，需進行人工fsck后才掛載存儲的錯誤。這也是造成了quorum disk 狀態(tài)為offline的根本原因。（分析是否正確？？）

解決方法：修改文件系統mount選項，將vfstab文件中的文件系統logging選項調整為缺省

3、quorum disk故障

  故障現象：查看/var/adm/messages日志發(fā)現有持續(xù)告警信息：Feb 14 03:10:40 rdmsdb01a cl_runtime: [ID 856360 kern.warning] WARNING: QUORUM_GENERIC: quorum_read_keys error: Reading the regi

故障原因：由于quorum disk（4.2T，也是數據盤）盤過大，在調整mount選項后，如文件系統出現問題，在系統啟動時依然會由于fsck過程過長，造成quorum disk磁盤獲取失敗的問題。

  解決方法：將大磁盤分解為多塊較小容量的磁盤，磁盤數小于cpu數，但風險較大，暫不實施

四、問題處理步驟

1、停止所有資源
#scswitch -F -g oradb_rg //停止所有資源（VIP也停掉）
#scswitch -n -j lh_oracle //關閉各個資源（開機時需手動開啟）
#scswitch -n -j oracle-re
#scswitch -n -j oradata-re
#scswitch -n -j archive-re
#scswitch -n -j ora-server-re
#scswitch -n -j ora-lsnr-re

# scstat -g //查看資源組及所有資源狀態(tài)

2、修改vsftab文件
把文件系統logging選項調整為缺省，即將“options”選項的信息的“l(fā)ogging”換成“-”

3、從存儲劃分一塊1g的磁盤給系統

4、操作系統識別并配置磁盤

#cfgadm –al //兩個節(jié)點均執(zhí)行此命令，顯示有關 SCSI 設備（如磁盤和磁帶）的信息。
#format

  AVAILABLE DISK SELECTIONS:
   0. c0**d0 <**>
      ****
   1. c0**d0 <**>
   ****
   2. c1**d1 <HITACHI-OPEN-V-SUN cyl 278 alt 2 hd 15 sec 512>
      ****
   3. c2**d1 <HITACHI-OPEN-V-SUN  cyl 278 alt 2 hd 15 sec 512>
      ****
   4. c3**d0 <HITACHI-OPEN-V*16 -SUN-4.16TB>
   ****
   目前存儲給系統新劃分了1G的存儲空間，但由于有多塊HBA卡，所有系統識別時會將同一塊存儲空間識別為多塊同一大小的硬盤（紅色表示的2和3），故要通過多路徑軟件進行配置，以便存儲劃分的1g空間在系統上識別為一塊1g的硬盤。
#cd /opt/DynamicLinkManager/bin //多路徑軟件所在目錄
#./dlmsetconf  //配置多路徑軟件，輸入命令后系統會自動進行相關設置
KAPL10242-I To configure HDLM, device files of sd/ssd devices managed by HDLM are removed after reboot.
Do you want to continue? [y/n]:n
KAPL10256-I The user terminated the operation.

#sync;sync;reboot -- -r //重啟系統

#format  //系統識別出的新劃分的1g磁盤，且只有一塊
AVAILABLE DISK SELECTIONS:
   0. c0**d0 <**>
      ****
   1. c0**d0 <**>
   ****
   2. c3**d0 <HITACHI-OPEN-V*16 -SUN-4.16TB>
   ****
   3. c1**d1 <HITACHI-OPEN-V-SUN  cyl 278 alt 2 hd 15 sec 512>
      ****
278個磁柱，每個磁柱有15個磁頭，每個磁頭管理512個扇區(qū)，每個扇區(qū)的大小均為512字節(jié)，所有每個磁柱的大小為15*512*512= 3932160 bytes；一共有278個磁柱，所有此磁盤的大小為278*3932160約等于1G（這樣算合適不？希望給予指正）

  Specify disk (enter its number): 3
selecting c3t50060E8005638900d1
[disk formatted]
  format> label //將新標簽寫入當前磁盤，標簽一般存放了關磁盤的控制器、幾何參數和分片的信息，為磁盤設置標簽通常是在系統安裝過程中或者使用新磁盤時進行的，一般磁盤出廠時都自帶標簽，但異構環(huán)境下，solaris有可能無法識別標簽，所以最好重新添加標簽。
Ready to label disk, continue? Y
format> quit
#scdidadm -L //查看SUN cluster管理的磁盤情況，找出新加磁盤對應得DXX的號.
以便選擇作為仲裁盤的磁盤序號，該磁盤必須兩個節(jié)點都可以訪問的共享磁盤，這里我們選擇的是DID號為d8的新劃分的1G磁盤。
#scdidadm –C  //將不存在的設備上的映射關系刪除
#sync;sync;init 6 //重啟系統

5、調整quorum disk

# scsetup //磁盤組注冊為Sun Cluster 磁盤設備組
  *** Main Menu ***
Please select from one of the following options:
   1) Quorum
      2) Resource groups
      3) Cluster interconnect
      4) Device groups and volumes
      5) Private hostnames
      6) New nodes
      7) Other cluster properties
   ?) Help with menu options
      q) Quit
Option:  1
*** Quorum Menu ***
Please select from one of the following options:
   1) Add a quorum disk
      2) Remove a quorum disk
   ?) Help
      q) Return to the Main Menu
      Option:  1 // 將新劃分的1g的磁盤設置為仲裁盤，
>>> Add a Quorum Disk <<<
This option is used to add a quorum disk to the cluster
configuration. SCSI-2 disks can be used for dual-ported quorum
devices. However, SCSI-3 PGR disks must be used when there are more
than two node-to-disk paths. You can use a disk containing user data
or one that is a member of a device group as a quorum device. For
more information on supported quorum device topologies, see the Sun
Cluster documentation.
Each quorum disk must be connected to at least two nodes. Adding a
quorum device automatically configures node-to-disk paths for all
nodes attached to the disk. Later, if you add more nodes to the
cluster, you might need to update these paths by removing then adding
back the quorum device.
   Is it okay to continue (yes/no) [yes]?
Which global device do you want to use (d<N>)? d8 //選擇使用哪個全局設備，這里用d8代替d4
Is it okay to proceed with the update (yes/no) [yes]?  yes
scconf -a -q globaldev=d8 //至此d8作為一個新的仲裁盤已經添加完畢。
此時，查看cluster狀態(tài)，會發(fā)現仲裁盤會有兩塊，一塊online，一塊offline

# scstat -q
-- Quorum Votes by Device –
Device Name Present    Possible       Status
Device votes:    /dev/did/rdsk/d4s2 0    1    Offline
Device votes:    /dev/did/rdsk/d8s2 1    1    Online

# scconf -r -q globaldev=d4 //刪除之前offline的d4刪除

此時，再來查看cluster的狀態(tài)：

# scstat -q
-- Quorum Votes by Device (current status)
                  Device Name       Present Possible Status
                  -----------       ------- -------- ------
  Device votes:    /dev/did/rdsk/d8s2  1       1    Online //只有一個仲裁盤且為online狀態(tài)

# scswitch -Z -g oradb_rg  //開啟所有資源

#scstat -g //查看資源狀態(tài)

所有資源都啟動，則一切ok

這樣的過程和表述，希望各位大神能給我指正下，特別是一些細節(jié)的地方，如有不對或不當之處，請告知謝謝各位

文庫|博客

Apache官方強心劑：開源不受出口管理條例約束！
Linux基礎命令---lynx瀏覽器
Dell R740服務器設置磁盤直通,不做RAID虛擬磁盤陣列
Linux基礎命令---elinks文本瀏覽器
Linux基礎命令---wget下載工具

東方蜘蛛

榮譽版主

論壇徽章:: 2

2樓 [報告]

發(fā)表于 2014-02-18 09:38 |只看該作者

估計是你的存儲端有問題，導致鎖盤離線，你把scstat貼出來看看吧。。。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

有機天使

稍有積蓄

論壇徽章:: 3

3樓 [報告]

發(fā)表于 2014-02-18 10:01 |只看該作者

你是說三個問題都是如此嗎？還是某一個問題是這樣？

東方蜘蛛發(fā)表于 2014-02-18 09:38
估計是你的存儲端有問題，導致鎖盤離線，你把scstat貼出來看看吧。。。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

東方蜘蛛

榮譽版主

論壇徽章:: 2

4樓 [報告]

發(fā)表于 2014-02-18 10:05 |只看該作者

有機天使發(fā)表于 2014-02-18 10:01
你是說三個問題都是如此嗎？還是某一個問題是這樣？

建議你好好看看cluster概念指南，鎖盤是第三方投票設備，一但離線，重啟任何一個節(jié)點，都會導致另一個節(jié)點panic。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

東方蜘蛛

榮譽版主

論壇徽章:: 2

5樓 [報告]

發(fā)表于 2014-02-18 10:08 |只看該作者

為了維持集群的穩(wěn)定性，Sun Cluster軟件框架采取了一種稱為投票系統（voting system）的機制：
每個節(jié)點都被明確分配了一張選票；
指定特定的磁盤（可多個）作為仲裁設備（quorum devices），并給予選票；
采用多數票原則，任何節(jié)點的票數必須超過所有選票數的50%才能夠形成一個集群或繼續(xù)呆在集群中。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

東方蜘蛛

榮譽版主

論壇徽章:: 2

6樓 [報告]

發(fā)表于 2014-02-18 10:11 |只看該作者

Sun Cluster軟件的仲裁使用持久保留來防止節(jié)點啟動形成集群。節(jié)點2將無法使用仲裁設備來完成選票計數。因此節(jié)點2將會一直等待直到其他節(jié)點（節(jié)點1）啟動才能達到仲裁選舉所需的票數。

實戰(zhàn)分享：從技術角度談機器學習入門| 【大話IT】RadonDB低門檻向MySQL集群下戰(zhàn)書 | ChinaUnix打賞功能已上線！ | 新一代分布式關系型數據庫RadonDB知多少？

東方蜘蛛

榮譽版主

論壇徽章:: 2

7樓 [報告]

發(fā)表于 2014-02-18 10:13 |只看該作者

當一個集群在運行時，它必須能夠清楚的知道以下事情：
所有可能的仲裁選票數（節(jié)點數+在集群中定義的來自磁盤的仲裁選票數）；
所有當前的仲裁選票數（集群中當前啟動的節(jié)點數+能夠被這些節(jié)點物理訪問的磁盤仲裁選票數）；
所有所需的仲裁選票數（必須達到所有可能的仲裁選票數的一半以上，即>50%）。

對選票異常事件，集群軟件采用以下處理方式：
如果節(jié)點在啟動時無法找到所需的選票數，將停滯等待其他節(jié)點加入，以獲得期待的選票；
已在集群中啟動的節(jié)點，但無法繼續(xù)找到所需的選票數，將發(fā)生kernel panics。