亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

Chinaunix

標(biāo)題: 【大話IT】由爐石傳說數(shù)據(jù)庫事故說起!你的數(shù)據(jù)如何備份?(獲獎名單已公布) [打印本頁]

作者: 王楠w_n    時間: 2017-01-20 11:35
標(biāo)題: 【大話IT】由爐石傳說數(shù)據(jù)庫事故說起!你的數(shù)據(jù)如何備份?(獲獎名單已公布)
獲獎公布:最佳優(yōu)勝獎:michael1983
精彩回復(fù):lsstarboy    forgaoqiang    o楓葉o飄零
請以上獲獎人員在4月20日前將姓名、電話、郵箱、公司、職務(wù)、快遞地址站短給hyukhae079408,以便盡快給大家發(fā)放禮品。

導(dǎo)語:
昨天下午突然看到,《爐石傳說》游戲數(shù)據(jù)庫發(fā)生宕機(jī)并引發(fā)數(shù)據(jù)丟失事故的新聞。剛看到時,滿滿的不可思議。暴雪啊,網(wǎng)易啊。

都是很牛叉的公司。他們出的游戲也很受大家歡迎。



當(dāng)看到,第一時間著手搶修,重啟服務(wù)器,并嘗試數(shù)據(jù)恢復(fù)時,我的想法是他們的高可用方案呢?為什么不馬上切換?

當(dāng)看到相關(guān)備份數(shù)據(jù)庫也出現(xiàn)故障時,就更無語了。其實這樣的事情在我們的客戶每年都會遇到很多。前不久就有一個醫(yī)院, 數(shù)據(jù)庫和備份都同時損壞,而且沒有高可用的方案。

雖然最終幫他們修復(fù)了好數(shù)據(jù)庫,但還是丟失部分?jǐn)?shù)據(jù),而且中間1天時間,業(yè)務(wù)都是手動操作,嚴(yán)重影響業(yè)務(wù)。

對于爐石這樣的大公司,對應(yīng)的方案應(yīng)該是做得很全的,本次事故也可能是有其他的原因。

至于事故的具體原因,大家也可以暢所欲言,批評指正!


那么,


從您的角度,分析此次問題存在的原因是?是官方聲稱的數(shù)據(jù)庫由于供電意外中斷,丟失,還是另有隱情?


活動時間:1月20日—2月20日


活動獎勵:
本期活動,我們將特設(shè)1個最佳優(yōu)勝獎,送DTCC2017大會門票一張。

同時,我們將會選取3個精彩回復(fù),各送社區(qū)15周年限量版男士商務(wù)晴雨傘一把。



DTCC 2017 來啦!

隨著云計算和大數(shù)據(jù)時代的來臨,數(shù)據(jù)正在以前所未有的速度成為各個領(lǐng)域價值創(chuàng)造的核心驅(qū)動力。

在此背景下,國內(nèi)最受關(guān)注的數(shù)據(jù)庫技術(shù)盛會——2017第八屆中國數(shù)據(jù)庫技術(shù)大會(DTCC2017)將于2017年5月11-13日如約而至。本屆大會以“數(shù)據(jù)驅(qū)動•價值發(fā)現(xiàn)”為主題,匯集來自互聯(lián)網(wǎng)、電子商務(wù)、金融、電信、政府、行業(yè)協(xié)會等20多個領(lǐng)域的120多位技術(shù)專家,共同探討Oracle、MySQL、NoSQL、云端數(shù)據(jù)庫、智能數(shù)據(jù)平臺、區(qū)塊鏈、數(shù)據(jù)可視化、深度學(xué)習(xí)等領(lǐng)域的前瞻性熱點話題與技術(shù)。大會共設(shè)定2大主場和20個技術(shù)專場,將吸引5000多名IT人士參會,為數(shù)據(jù)庫人群、大數(shù)據(jù)從業(yè)人員、廣大互聯(lián)網(wǎng)人士及行業(yè)相關(guān)人士提供最具價值的交流平臺。




官網(wǎng)鏈接:http://dtcc.it168.com/
購票鏈接:http://dtcc.it168.com/goupiao.html

歡迎掃碼關(guān)注DTCC官方微信,獲取最新信息!










作者: 670260542li    時間: 2017-01-20 14:11
額。。。第一次奪得第一位!哈哈。⌒〖!針對這次游戲數(shù)據(jù)庫出問題這件事情看來,我覺得其實沒什么復(fù)雜的,在一個環(huán)境當(dāng)中,再牛叉的高可用也變成了低可用,除非做到異地備份與多可用區(qū)的高可用。。。要不然,停電一次就是一次災(zāi)難!。
作者: 王楠w_n    時間: 2017-01-20 17:44
回復(fù) 2# 670260542li


作者: o楓葉o飄零    時間: 2017-01-20 18:00
本帖最后由 o楓葉o飄零 于 2017-02-10 14:45 編輯

先占個位置,這個問題場景 我遇到過  
我說說在上家公司的情況

項目托管在客戶找第三方的機(jī)房。然后有整機(jī)房停電的想象。

因此我們做數(shù)據(jù)庫(mysql)時,就做了 2主1從       主(機(jī)房1) 主(機(jī)房2) 從(機(jī)房1或者2)

這架構(gòu)只能保證當(dāng)其中一個機(jī)房出問題時,另外1個數(shù)據(jù)庫能用。

但是這個架構(gòu)有個缺陷就是無法做高可用,所以在實際過程中有點蛋疼。

有一次出現(xiàn)了一個意外情況, 有一個機(jī)房突然斷電了,然后就發(fā)現(xiàn)數(shù)據(jù)庫連接不上了,然后準(zhǔn)備手動切換到另外一個機(jī)房上時,發(fā)現(xiàn)mysql重啟起不來了,再然后死活無法啟動mysql了。

過了30分鐘,那個機(jī)房來電了,然后準(zhǔn)備啟動mysql,一樣也無法啟動了   再檢查從庫,出現(xiàn)一樣的問題。  這時我開始絕望了。 (數(shù)據(jù)量太大,有1.7T  沒有定期做完備)

最后的解決方法。,把mysql里面的ibdata1和.frm文件copy到另外一個新數(shù)據(jù)庫,可以啟動了 ,然后準(zhǔn)備用mysqldump,無法mysqldump,我頓時無語。 最后只能用select導(dǎo)出數(shù)據(jù),然后再還原了。。。。。

但是還是損失了幾個小時的數(shù)據(jù)
最后發(fā)現(xiàn)由于停電把那個單庫的.frm文件損壞了。。。而且所有主備機(jī)上的那個文件都損壞了。。

因此對于IT這種不是完全可控的來說,大黃易的情況我也能理解。不過對于大黃易來說,這次損失確實慘重


作者: renxiao2003    時間: 2017-01-20 22:02
我覺得完全有可能。比如人為操作(不是故意的),或者外界因素,如電力,空調(diào)通風(fēng)等都可能同時造成服務(wù)器和熱備機(jī)同時出現(xiàn)問題。除非將主機(jī)和備份機(jī)放在不同的地方,比如至少不在同一個房間,當(dāng)然最好是在兩個不同的樓中(在不同的區(qū)域),停電一般是一片區(qū)一片區(qū)停的,不可能整個城市停電。
作者: denisdu    時間: 2017-01-22 17:22
供電中斷,相信嗎?機(jī)房的電池不是一塊兩塊的,是很多的,UPS也有兩套主備,再說還有柴油發(fā)電機(jī)呢,備電設(shè)施全壞誰信。渴须娨峭5脑捯矔崆案嬷,就是人為操作導(dǎo)致的,凡是經(jīng)歷過的運維人員都會知道的有時候就是神志不清的輸入了rm -rf / ,天知道我為什么要敲這條命令且行且珍惜,建議尤其是DBA,最好買本《刪庫跑路指南》
作者: hellioncu    時間: 2017-01-23 09:39
說是1.14 15:20停電導(dǎo)致數(shù)據(jù)庫損壞,備份也壞無法恢復(fù),后面又說回檔到1.14 15:20的狀態(tài),那就是說停電并沒有導(dǎo)致數(shù)據(jù)庫損壞,這不自相矛盾么?公告寫錯的概率不大吧,我覺得是隱瞞了實情。
作者: fenyun689    時間: 2017-01-23 12:42
本帖最后由 fenyun689 于 2017-01-23 12:45 編輯

肯定是不愿意投錢。高可用方案只是做個樣子,給外面看呢。沒有真正去做。
沒想過真的會出意想不到的情況。
像銀行,電信等行業(yè)做的還可以。
作者: cjfeii    時間: 2017-01-23 13:10
難道真是誤操作
作者: cjfeii    時間: 2017-01-23 13:33
可能性1:
這是一起運維人員操作失誤與玩忽職守的責(zé)任事故。
可能性2:
發(fā)生小故障不愿停機(jī)維護(hù),帶病運行導(dǎo)致事故擴(kuò)大。
作者: action08    時間: 2017-01-23 18:34
社區(qū)評論不少,有人吼163做事做人要多學(xué)學(xué)暴雪大神
也有人直接吼大神下次出事情,請?zhí)崆巴ㄖI(lǐng)取補(bǔ)償)
作者: qingduo04    時間: 2017-01-26 10:43
先說說官方給的電力問題的解釋

如果歸因在電力問題,那可以解釋過去,不過也存在一些問題,先說說解釋的問題

1.  電力故障是機(jī)房中最嚴(yán)重的故障問題,不僅僅涉及到數(shù)據(jù)庫,同時涉及到其他的業(yè)務(wù),比如前臺訪問均出現(xiàn)問題,并且由于機(jī)房電力故障,對于正在高速讀寫的存儲來說災(zāi)難性比較大,
這也就造成了,數(shù)據(jù)可能會丟失。
     舉例:我們機(jī)房原來發(fā)生過一個機(jī)柜出現(xiàn)斷電,造成數(shù)據(jù)庫對應(yīng)的部分?jǐn)?shù)據(jù)變成不可讀,好在是OLAP系統(tǒng),數(shù)據(jù)可以再生成,影響不大。

2.  由于異常斷電,可能災(zāi)備會出現(xiàn)問題,數(shù)據(jù)沒有及時同步過去,造成數(shù)據(jù)丟失,同時如果沒有災(zāi)備,數(shù)據(jù)絕對就會丟失了,但是災(zāi)備和生產(chǎn)是在一個機(jī)房么? 這是需要考慮的?


除官方給的說明外,我覺得也有幾方面造成這樣的問題
1. 數(shù)據(jù)被誤操作,包含災(zāi)備的數(shù)據(jù),同時被誤操作。
2. 數(shù)據(jù)容災(zāi)或者備份不到位,真正要啟動備份,發(fā)現(xiàn)根本不可行。
...................




作者: lsstarboy    時間: 2017-01-29 16:12
1、斷電就造成這么大傷害,這系統(tǒng)也應(yīng)該背點鍋才對,包括操作系統(tǒng)、文件系統(tǒng)、數(shù)據(jù)庫系統(tǒng),斷電可以出現(xiàn)異常,丟部分?jǐn)?shù)據(jù)也是正常的,但是大批量丟失數(shù)據(jù)肯定是不正常的。

2、備份和主庫同時損壞,這種機(jī)率應(yīng)該比彩票中獎還小,除非……有人為因素。

3、備份和主庫放在同一機(jī)房?這就不僅僅是技術(shù)問題了,領(lǐng)導(dǎo)就根本不拿數(shù)據(jù)當(dāng)財富!

4、對于在線的熱備,主庫壞了,備份庫應(yīng)該馬上能接手,但是如果主庫被黑了,或者主庫出錯了,那么熱備的庫肯定也是完蛋——是不是我想多了?不針對任何人哦!

5、從網(wǎng)易發(fā)的聲明中有點困惑,回滾的時間為出現(xiàn)問題的時間,然后說有人需要重新練,也就是說,數(shù)據(jù)庫故障后,游戲仍在繼續(xù),但是數(shù)據(jù)沒法入庫了,那么結(jié)論就是:游戲數(shù)據(jù)不是實時入庫,并且數(shù)據(jù)緩存沒有持久化的功能——這種情況跟現(xiàn)在的技術(shù)好像不點不搭,我一直認(rèn)為這方面的技術(shù)已經(jīng)比較成熟了。




作者: forgaoqiang    時間: 2017-02-04 15:32
本帖最后由 forgaoqiang 于 2017-02-17 20:23 編輯

禍不單行 不管是gitlab的五層備份 還是各家公司的各種吹的牛,在事故面前都是紙老虎

先解讀下官方說明:
我們看到這個破殼而出的Robot甚至牛X,故障發(fā)生在1月14日(東八區(qū))的下午3點20分,當(dāng)時也不是什么陰謀就給數(shù)據(jù)庫供電的電沒了,然后數(shù)據(jù)就損壞了。
當(dāng)時維護(hù)人員就上去搞,發(fā)現(xiàn)不管是二進(jìn)制日志還是啥的都不好使,主數(shù)據(jù)庫宣告正式陣亡。
于是團(tuán)隊找了備份君頂上去,不知道什么原因備份君也不給力,一起跟著歇菜了(比較奇怪,備份君為啥會也跟著歇菜呢)
沒辦法只能繼續(xù)回溯,找更早的備份君頂上去。

于是和當(dāng)年騰訊QQ一樣做了個艱難的決定,把大家的數(shù)據(jù)都丟了吧,回爐重造(畢竟是爐石嘛,可以重頭練)
當(dāng)然大家的損失我們還是要補(bǔ)償?shù),比如每個人添加點數(shù)據(jù)進(jìn)去(要真金白銀那是肯定不行的,當(dāng)然我們回頭開個會決定下給多少)





故事情節(jié)大概就是上面說的吧,于是問題就來了:

爐石傳說,這可是爐石傳說啊,直播都排名前幾的超級火的游戲,那嘩嘩的氪金玩家的銀子那是流淌個不停,運維肯定是最頂尖的,服務(wù)器和設(shè)備也是最好的,當(dāng)然供電和空調(diào)肯定也是必備的,只是出了點問題:
首先電源不知道為什么沒了(如果真是電源沒了的話),物理安全存在問題。
當(dāng)然不就是沒電了么,上電后繼續(xù)跑唄,額 跑不動了,系統(tǒng)損壞了,已經(jīng)和windows和linux還是unix無關(guān)了,總之?dāng)?shù)據(jù)是不對了
當(dāng)然這都是小事,旁邊不還是有個slave等著么,他整天想著翻身把歌唱,只是繼續(xù)咸魚了
先不說主服務(wù)器那么容易歇菜,問題是備份服務(wù)器為什么也會跟著一起歇菜,不是沒做好就是有人做的太好

總之吧,這事就是個教訓(xùn),肯定沒有檢查過備份君的情況,估計他一直沒有好好干活






作者: laputa73    時間: 2017-02-06 14:37
這類大型游戲,估計數(shù)據(jù)庫都是集群,做了切片處理。
停電之后數(shù)據(jù)庫損壞,這個可以理解,主備庫可能在同機(jī)房。電信的idc機(jī)房都時不時來一次全區(qū)域掉電。游戲數(shù)據(jù)庫,估計也不可能做到異地容災(zāi)。
只能使用之前備份的鏡像+停電前的事務(wù)日志進(jìn)行恢復(fù)。
如果等到恢復(fù)之后再開服,應(yīng)該問題不大。
但是如果帶病運行,不同服務(wù)器間的數(shù)據(jù)一致性就會被破壞,無法恢復(fù)。


作者: C.O.B    時間: 2017-02-08 11:35
1.首先確認(rèn)通過此類事故,用戶關(guān)鍵業(yè)務(wù)的RTO、RPO要求是多少?
2.其次需要確認(rèn)用戶的環(huán)境信息,什么數(shù)據(jù)庫,版本信息,運行在什么平臺,物理機(jī)還是虛擬機(jī)?
了解了這些大致狀況,才能給用戶推薦合適的方案。當(dāng)然,方案也是基于預(yù)算的。
備份方案的RTO和RPO畢竟是有限的,滿足不了的情況下就應(yīng)該考慮關(guān)鍵業(yè)務(wù)的本地雙活了,那就是另外的話題了。
作者: fengzhanhai    時間: 2017-02-11 21:57
本帖最后由 fengzhanhai 于 2017-02-18 09:32 編輯

回復(fù) 1# 王楠w_n
主題錯了
作者: Fl_wolf    時間: 2017-02-13 14:59
個人覺得,他們給出的是備份數(shù)據(jù)不能恢復(fù)
這個是有可能的,但是有數(shù)據(jù)庫備份權(quán)限的用戶全備不可能不檢查的吧
有可能只備份了數(shù)據(jù)結(jié)構(gòu)? 還是什么,也有可能備份的管理員換了個人,導(dǎo)致出了問題。
這些很難說,也有可能是惡意刪除。的原因,說不準(zhǔn)。
不過還是警醒運維人員,數(shù)據(jù)要多備份,每個月要查看一次備份數(shù)據(jù)是否正常。
作者: forgaoqiang    時間: 2017-02-16 21:44
感覺備份可能是做了 但是至于能不能用 只能在主數(shù)據(jù)不能用的時候才知道了
作者: 七彩山楂樹    時間: 2017-02-17 08:55
hellioncu 發(fā)表于 2017-01-23 09:39
說是1.14 15:20停電導(dǎo)致數(shù)據(jù)庫損壞,備份也壞無法恢復(fù),后面又說回檔到1.14 15:20的狀態(tài),那就是說停電并沒 ...

我也留意了

作者: action08    時間: 2017-02-17 11:07
吹牛的本事都有,关键游戏跟互联网属于不同的业务,有些技术还是有些差异的。


简单说,互联网备份容易,游戏备份麻烦些,毕竟涉及一个实时性的问题,游戏大神设计师又未必考虑到这块死角

作者: l495051275    時間: 2017-02-17 19:35
冰凍三尺非一日之寒!
作者: forgaoqiang    時間: 2017-02-17 19:55
終于出了個大新聞 多重安全機(jī)制下都沒有保住數(shù)據(jù)
作者: wlmqgzm    時間: 2017-02-20 19:37
簡單的說,就是備份的東西,自己沒有做過恢復(fù)測試,類似的事情多了,
各種原因都有,
共同的特點就是:只做了備份,但是從來沒有試過恢復(fù),不重視運維造成的后果。

另外就是在備份的機(jī)制上沒有做遠(yuǎn)程異地備份。
作者: michael1983    時間: 2017-02-20 22:55
    其實話說回來,我真心不太關(guān)注它這次問題的原因,作為一個資深的IT運維人員,我更關(guān)注的是它事件本身后面隱藏的本質(zhì)。
    首先,每一個人都不得不接受一個現(xiàn)實就是,世界上沒有不出問題的系統(tǒng),所以我們制定了各種各樣的措施來去降低出問題的幾率,如更換更好的機(jī)器、使用Raid做硬盤保護(hù)、應(yīng)用層面采用集群架構(gòu)等等;同時,我們也會制定各種各樣的流程制度辦法來提高解決問題的時效,如數(shù)據(jù)庫HA、存儲級快照、自動化重啟應(yīng)用的腳本等等。這世界上的IT系統(tǒng),無非如此,今天不出問題,不代表明天不出問題,并不是系統(tǒng)本身不行了,而且業(yè)務(wù)的發(fā)展超過了系統(tǒng)本身的承載力,不合時宜了。
    所以,明白這個現(xiàn)實之后,就會明白我們對系統(tǒng)本身所做的一系列優(yōu)化措施是干什么用的,比如說備份,就是為了當(dāng)數(shù)據(jù)意外丟失時,用來保命的手段,這是底線。就爐石傳說而言,有主庫,有備庫,主庫故障時,理論上備庫應(yīng)該起到作用的,為什么沒起到作用?無非兩點,要么備庫也壞了,要么備庫的數(shù)據(jù)太舊了。按照實際來說,我更相信是前者,即備庫也壞了。一般來說,主備庫為了保持?jǐn)?shù)據(jù)一致性,是會保持?jǐn)?shù)據(jù)同步的(即便不是實時,也會是準(zhǔn)實時),那么一旦主庫被人為破壞,那么被破壞的數(shù)據(jù)也會實時同步到備庫,則備庫也會損壞,從而導(dǎo)致主備均不可用,這就是備庫也不可用的原因。這樣的架構(gòu)再配上頻次較高的離線備份,就可以比較好的避免此類情況發(fā)生,而實際來看,暴雪是沒有這樣的措施的。
    所以出了問題不可怕,可怕是本可以快速恢復(fù)故障的手段也失效了,這才是我們要重視和下大力氣改進(jìn)的,本地高可用架構(gòu),應(yīng)用集群化訪問、離線高頻次備份(異地),這樣才能真正避免數(shù)據(jù)丟失的可怕情況,希望網(wǎng)易可以認(rèn)真吸取此次教訓(xùn),不要讓玩家們再次失望。





歡迎光臨 Chinaunix (http://72891.cn/) Powered by Discuz! X3.2