亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
12下一頁
最近訪問板塊 發(fā)新帖
查看: 6636 | 回復(fù): 11
打印 上一主題 下一主題

linux集群里若有一臺機器斷網(wǎng)則兩臺機器都掉電的問題 [復(fù)制鏈接]

論壇徽章:
0
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2010-08-12 18:03 |只看該作者 |倒序瀏覽
本帖最后由 Ling_wwl 于 2010-08-12 19:36 編輯

大家好,我直接描述現(xiàn)象:

環(huán)境:兩臺HP DL 380 G6,redhat 5.3,oracle 10.2.0.4,redhat 5.3自帶的cluster。
      主機:dz-oracle1,134.36.139.221
         備機:dz-oracle2,134.36.139.222
         集群ip:134.36.139.220

其他:由于雙網(wǎng)卡綁定與cluster有沖突,故cluster的啟動在 /ect/rc.d/rc.local 中,(即在此文件中添加service cman start和service rgmanager start)。

網(wǎng)絡(luò)連接方式:兩臺機的網(wǎng)卡eth1和eth2都綁定在bond0;主機的ilo接在備機的eth3;備機的ilo接在主機的eth3。

成果:目前兩臺機器之間是可以識別的,fence_ilo命令是通的,集群是可以起來的。當(dāng)主機的oracle進程有問題時,可以成功切換到備機。但……(如下)

故障現(xiàn)象:集群做斷網(wǎng)測試時不成功。無論是主機還是備機,只要有一臺機器斷開網(wǎng)絡(luò)(如:把主機的eth1和eth2的網(wǎng)線撥掉),則兩臺機器同時掉電。
          /var/log/messages 里顯示“gnome-power-manager: (root) GNOME 交互式注銷,原因是 按下了電源按鈕”。

斷網(wǎng)測試的日志:現(xiàn)主機正在管理集群,我把主機的eth1和eth2的網(wǎng)線都撥掉,則出現(xiàn)同時掉電,其中 /var/log/messages 里的日志如下。

做了很多測試方法,也沒有把這個問題解決,各位有啥說啥,小弟在此恭候,希望能把此問題解決,謝謝!



主機的 /var/log/messages 記錄如下:

  1. Aug 12 16:20:52 dz-oracle1 scim-bridge: The lockfile is destroied
  2. Aug 12 16:20:52 dz-oracle1 scim-bridge: Cleanup, done. Exitting...
  3. Aug 12 16:21:44 dz-oracle1 kernel: bnx2: eth1 NIC Copper Link is Down
  4. Aug 12 16:21:44 dz-oracle1 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it
  5. Aug 12 16:21:44 dz-oracle1 kernel: bonding: bond0: making interface eth2 the new active one.
  6. Aug 12 16:21:48 dz-oracle1 kernel: bnx2: eth2 NIC Copper Link is Down
  7. Aug 12 16:21:48 dz-oracle1 kernel: bonding: bond0: link status definitely down for interface eth2, disabling it
  8. Aug 12 16:21:48 dz-oracle1 kernel: bonding: bond0: now running without any active interface !
  9. Aug 12 16:21:57 dz-oracle1 openais[6494]: [TOTEM] The token was lost in the OPERATIONAL state.
  10. Aug 12 16:21:57 dz-oracle1 openais[6494]: [TOTEM] Receive multicast socket recv buffer size (288000 bytes).
  11. Aug 12 16:21:57 dz-oracle1 openais[6494]: [TOTEM] Transmit multicast socket send buffer size (288000 bytes).
  12. Aug 12 16:21:57 dz-oracle1 openais[6494]: [TOTEM] entering GATHER state from 2.
  13. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] entering GATHER state from 0.
  14. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] Creating commit token because I am the rep.
  15. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] Saving state aru 43 high seq received 43
  16. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] Storing new sequence id for ring 430
  17. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] entering COMMIT state.
  18. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] entering RECOVERY state.
  19. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] position [0] member 134.36.139.221:
  20. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] previous ring seq 1068 rep 134.36.139.221
  21. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] aru 43 high delivered 43 received flag 1
  22. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] Did not need to originate any messages in recovery.
  23. Aug 12 16:22:02 dz-oracle1 openais[6494]: [TOTEM] Sending initial ORF token
  24. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ] CLM CONFIGURATION CHANGE
  25. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ] New Configuration:
  26. Aug 12 16:22:02 dz-oracle1 fenced[6516]: dz-oracle2 not a cluster member after 0 sec post_fail_delay
  27. Aug 12 16:22:02 dz-oracle1 kernel: dlm: closing connection to node 2
  28. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ]         r(0) ip(134.36.139.221)  
  29. Aug 12 16:22:02 dz-oracle1 fenced[6516]: fencing node "dz-oracle2"
  30. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ] Members Left:
  31. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ]         r(0) ip(134.36.139.222)  
  32. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ] Members Joined:
  33. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ] CLM CONFIGURATION CHANGE
  34. Aug 12 16:22:02 dz-oracle1 openais[6494]: [CLM  ] New Configuration:
  35. Aug 12 16:22:03 dz-oracle1 openais[6494]: [CLM  ]         r(0) ip(134.36.139.221)  
  36. Aug 12 16:22:03 dz-oracle1 openais[6494]: [CLM  ] Members Left:
  37. Aug 12 16:22:03 dz-oracle1 openais[6494]: [CLM  ] Members Joined:
  38. Aug 12 16:22:03 dz-oracle1 openais[6494]: [SYNC ] This node is within the primary component and will provide service.
  39. Aug 12 16:22:03 dz-oracle1 openais[6494]: [TOTEM] entering OPERATIONAL state.
  40. Aug 12 16:22:03 dz-oracle1 openais[6494]: [CLM  ] got nodejoin message 134.36.139.221
  41. Aug 12 16:22:03 dz-oracle1 openais[6494]: [CPG  ] got joinlist message from node 1
  42. Aug 12 16:22:07 dz-oracle1 gnome-power-manager: (root) GNOME 交互式注銷,原因是 按下了電源按鈕
復(fù)制代碼
備機的 /var/log/messages 記錄如下:
  1. Aug 12 16:20:38 dz-oracle2 scim-bridge: The lockfile is destroied
  2. Aug 12 16:20:38 dz-oracle2 scim-bridge: Cleanup, done. Exitting...
  3. Aug 12 16:21:19 dz-oracle2 openais[6496]: [TOTEM] The token was lost in the OPERATIONAL state.
  4. Aug 12 16:21:19 dz-oracle2 openais[6496]: [TOTEM] Receive multicast socket recv buffer size (288000 bytes).
  5. Aug 12 16:21:19 dz-oracle2 openais[6496]: [TOTEM] Transmit multicast socket send buffer size (288000 bytes).
  6. Aug 12 16:21:19 dz-oracle2 openais[6496]: [TOTEM] entering GATHER state from 2.
  7. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] entering GATHER state from 0.
  8. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] Creating commit token because I am the rep.
  9. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] Saving state aru 43 high seq received 43
  10. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] Storing new sequence id for ring 430
  11. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] entering COMMIT state.
  12. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] entering RECOVERY state.
  13. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] position [0] member 134.36.139.222:
  14. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] previous ring seq 1068 rep 134.36.139.221
  15. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] aru 43 high delivered 43 received flag 1
  16. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] Did not need to originate any messages in recovery.
  17. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] Sending initial ORF token
  18. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] CLM CONFIGURATION CHANGE
  19. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] New Configuration:
  20. Aug 12 16:21:24 dz-oracle2 kernel: dlm: closing connection to node 1
  21. Aug 12 16:21:24 dz-oracle2 fenced[6518]: dz-oracle1 not a cluster member after 0 sec post_fail_delay
  22. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ]         r(0) ip(134.36.139.222)  
  23. Aug 12 16:21:24 dz-oracle2 fenced[6518]: fencing node "dz-oracle1"
  24. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] Members Left:
  25. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ]         r(0) ip(134.36.139.221)  
  26. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] Members Joined:
  27. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] CLM CONFIGURATION CHANGE
  28. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] New Configuration:
  29. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ]         r(0) ip(134.36.139.222)  
  30. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] Members Left:
  31. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] Members Joined:
  32. Aug 12 16:21:24 dz-oracle2 openais[6496]: [SYNC ] This node is within the primary component and will provide service.
  33. Aug 12 16:21:24 dz-oracle2 openais[6496]: [TOTEM] entering OPERATIONAL state.
  34. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CLM  ] got nodejoin message 134.36.139.222
  35. Aug 12 16:21:24 dz-oracle2 openais[6496]: [CPG  ] got joinlist message from node 2
  36. Aug 12 16:21:29 dz-oracle2 gnome-power-manager: (root) GNOME 交互式注銷,原因是 按下了電源按鈕
復(fù)制代碼

論壇徽章:
0
2 [報告]
發(fā)表于 2010-08-12 18:10 |只看該作者
Aug 12 16:21:29 dz-oracle2 gnome-power-manager: (root) GNOME 交互式注銷,原因是 按下了電源按鈕

現(xiàn)在就是啥原因引起按下了電源鍵?如何解決?我并沒有去按的,而且我觀察過,兩臺機器是同時掉電的。

論壇徽章:
0
3 [報告]
發(fā)表于 2010-08-13 09:44 |只看該作者
好像這是rgmanager的bug沒什么好的解決辦法

論壇徽章:
0
4 [報告]
發(fā)表于 2010-08-16 20:44 |只看該作者
各位大哥,有沒有什么解決方法呀。如果不知具體原因的,也可以幫我分析分析,看看是哪里的問題。很快要上線了,擔(dān)心會影響驗收!

論壇徽章:
0
5 [報告]
發(fā)表于 2010-08-17 10:22 |只看該作者
HP ilo的ip配置里嗎?

論壇徽章:
0
6 [報告]
發(fā)表于 2010-08-17 10:35 |只看該作者
應(yīng)該是配置錯誤,我以前配置過IBM3650,也是雙網(wǎng)卡綁定,沒問題的。

論壇徽章:
0
7 [報告]
發(fā)表于 2010-08-18 21:11 |只看該作者
回復(fù) 5# fanjiefa


    已經(jīng)配置好了,兩臺機器都是menber了,fence_ilo命令都能通到對方。
    我覺得可能跟這個有關(guān):主機的ilo接在eth3上,備機的反之。但不知道為什么,主機的ilo接備機的ilo時,兩臺機器之間識別不了(fence_ilo通不到對方),所以才用這種方法的。

論壇徽章:
1
IT運維版塊每日發(fā)帖之星
日期:2015-07-05 22:20:00
8 [報告]
發(fā)表于 2010-08-20 14:15 |只看該作者
這個是正常的。你的這種網(wǎng)絡(luò)環(huán)境,需要配置qdisk才能實現(xiàn)拔網(wǎng)線切換。如果不配qdisk,ilo就不要和網(wǎng)卡直連,接到交換機上和bond0在一個網(wǎng)段。ilo是獨立于系統(tǒng)之外的設(shè)備,基本上只是被動地接受命令,你直接把ilo連起來沒用的。

論壇徽章:
0
9 [報告]
發(fā)表于 2010-08-24 17:13 |只看該作者
回復(fù) 8# yjs_sh


   
嗯嗯,看來就是所謂的“腦裂”,但也有一點奇怪的現(xiàn)象,就是:主機掉電,備機能接管;主機的oracle資源異常,備機也能接管。就是主機斷網(wǎng)了,備機接管不了,出現(xiàn)掉電現(xiàn)象。
這樣的話,用“腦裂”來解釋好像解釋不通!

這里用的是三層交換機,心跳的TTL=1,無法進行心跳!

論壇徽章:
1
IT運維版塊每日發(fā)帖之星
日期:2015-07-05 22:20:00
10 [報告]
發(fā)表于 2010-08-25 20:44 |只看該作者
主機掉電能接管嗎?ilo作為fence設(shè)備,如果主機掉電,ilo就無法工作。rhcs的另外一個節(jié)點必須通過fence將出問題的節(jié)點重新啟動后才能將資源接管。主機掉電,無法fence成功,應(yīng)該是無法接管的,這個我在實際運行環(huán)境中試過多次了。log中會不停報"fence fail"
沒有qdisk,網(wǎng)絡(luò)斷掉,其實兩邊都認(rèn)為對方出現(xiàn)問題,互相fence。此時如果兩邊的fence都能通訊并正常工作的話,就會出現(xiàn)2節(jié)點同時關(guān)機了。fence的過程是先poweroff,然后poweron。
你的這個環(huán)境中如果將fence和心跳都放在同一個網(wǎng)絡(luò)里就不會出現(xiàn)這樣的問題,因為斷網(wǎng)的那一方fence指令發(fā)不出去了,因此斷網(wǎng)的這邊會被好的那邊f(xié)ence掉重新啟動,資源切換。
bond和rhcs沒有任何沖突的,redhat也是推薦bond的
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP