首頁(yè) >> 新聞

發(fā)表評論分享按鈕

宕機原因分析

2011/12/08

  原因一:電源故障

  停電自然會(huì )引起服務(wù)器宕機,還沒(méi)有哪個(gè)服務(wù)器不用電的吧。在剛剛過(guò)去的2010年,閃電、風(fēng)暴、洪水、轉換開(kāi)關(guān)的失誤都是今年數據中心停電的罪魁禍首,大量的社交媒體網(wǎng)站,如Twitter、Facebook以及一些免費托管的服務(wù)器群都有嚴重的斷電現象。在2010年,主要電子商務(wù)商服務(wù)的服務(wù)器就出現了四次嚴重斷電,導致數百萬(wàn)美元的交易流產(chǎn),甚至連政府服務(wù)網(wǎng)站也出現宕機事件。

  iWeb的CL數據中心因火災迫使3000臺虛擬服務(wù)器主機轉用發(fā)電機設備進(jìn)行供電,其中三臺發(fā)電機正常啟動(dòng),另外一臺因轉換開(kāi)關(guān)故障而啟動(dòng)失敗。一旦UPS電源被耗盡,該數據中心將有三分之一的設備宕機。大約一小時(shí)后電力恢復,但至少有450臺的服務(wù)器沒(méi)有重新啟動(dòng),需要進(jìn)行人工操作,一直持續到4日的下午4點(diǎn)所有的服務(wù)器才開(kāi)始正常運行。通過(guò)這一事件,iWeb在博客中表示,該公司每星期都會(huì )對備用電力設備進(jìn)行測試,防止同類(lèi)情況發(fā)生。

  在此前的9月16日,網(wǎng)上銀行門(mén)戶(hù)網(wǎng)站Chase.com在遭遇了14號和15號漫長(cháng)的停電而停機后重新上線(xiàn),但是冗長(cháng)的等待過(guò)程導致了定期支付賬單無(wú)法按時(shí)交易。該網(wǎng)上銀行門(mén)戶(hù)網(wǎng)站表示:將退客戶(hù)還在此期間產(chǎn)生的的滯納金,并對此事件進(jìn)行公開(kāi)道歉。

  在5月初,Amazon云計算服務(wù)4次因停電而發(fā)生故障,5月4日的兩次故障的原因則分別是一個(gè)UPS單元故障和人為操作失誤;5月8日因配電屏電氣接地和短路引發(fā)的停電曾導致部分用戶(hù)失去服務(wù)長(cháng)達7個(gè)小時(shí),而且還導致極少量用戶(hù)的數據丟失。而在5月11日,停電故障則是因為一輛汽車(chē)撞倒了Amazon數據中心附近的高壓電線(xiàn)桿,而數據中心的配電開(kāi)關(guān)又未能正常地從公用電網(wǎng)切換到內部的備用發(fā)電機(配電自動(dòng)化系統錯誤地將停電原因理解為電氣接地)。

  原因二:硬件故障

  在去年的12月12日,亞馬遜旗下英國、法國、德國和西班牙網(wǎng)站晚間宕機超過(guò)一個(gè)半小時(shí),有報道稱(chēng),由于亞馬遜停止向維基解密網(wǎng)站提供服務(wù),亞馬遜歐洲購物網(wǎng)站引發(fā)黑客攻擊而出現訪(fǎng)問(wèn)障礙。但是在第二天,亞馬遜女發(fā)言人馬麗•奧薩科(MaryOsako)在一份電子郵件中談及所謂的遭受拒絕服務(wù)攻擊時(shí)表示:“今天早些時(shí)候公司歐洲零售網(wǎng)站出現短暫的訪(fǎng)問(wèn)中斷,是由于我們歐洲數據中心網(wǎng)絡(luò )硬件出現故障,并非遭受分布式拒絕服務(wù)攻擊(DDOS)。”

  無(wú)獨有偶,美國最大的在線(xiàn)支付平臺PayPal在2010年10月29日也因硬件故障發(fā)生宕機事故。宕機發(fā)生于美國東部時(shí)間上周五上午11時(shí),當天下午12時(shí)30分故障解決。但是,下午2時(shí)30分,故障再度發(fā)生,并持續了近一個(gè)小時(shí)。恢復和失效備援系統未能立即發(fā)揮作用。故障期間,PayPal的所有用戶(hù)均無(wú)法使用該網(wǎng)站的服務(wù)。

  原因三:軟件故障

  2010年2月18日下午(美國當地時(shí)間),美國博客服務(wù)平臺WordPress網(wǎng)站發(fā)生服務(wù)故障,此次故障持續時(shí)間達110分鐘,使約1020萬(wàn)家使用WordPress服務(wù)的博客網(wǎng)站受到影響,受到影響的網(wǎng)頁(yè)瀏覽數量高達550萬(wàn)個(gè)。WordPress創(chuàng )始人馬特•穆倫維格(MattMullenweg)在該公司官方博客中表示,故障原因是由于WordPress數據中心服務(wù)商對一臺主要路由器參數進(jìn)行了調整。

  穆倫維格當時(shí)還表示,希望下次WordPress發(fā)生大規模服務(wù)故障的時(shí)間至少也在“四年之后”。但出乎穆倫維格意料的是,僅僅不到四個(gè)月之后,WordPress再次發(fā)生大規模服務(wù)故障。在6月10日晚(美國當地時(shí)間)發(fā)生的那次故障,導致超過(guò)1000萬(wàn)家使用WordPress服務(wù)的博客受到影響,其中包括知名科技博客TechCrunch、GigaOm等網(wǎng)站一度無(wú)法正常訪(fǎng)問(wèn)。穆倫維格表示導致此次故障的原因是:WordPress對一部分所托管博客網(wǎng)站的代碼進(jìn)行了調整。

  早在2000年,亞馬遜公司也曾發(fā)生過(guò)軟件故障引起的宕機事故,那年的感恩節前后的兩周,亞馬遜網(wǎng)站在不到兩周時(shí)間里出現第三次癱瘓,對此,亞馬遜表示出現故障的原因是網(wǎng)站的內部軟件有問(wèn)題。亞馬遜發(fā)言人表示:“我們在同一時(shí)間運行了兩個(gè)軟件,結果證明這兩個(gè)軟件無(wú)法兼容,于是導致網(wǎng)站出現癱瘓,現在我們已對這一問(wèn)題進(jìn)行了確認和分析,而且已排除了故障。”

  原因四:“鴨梨”過(guò)大 消化不了

  相比其它原因,網(wǎng)站服務(wù)器宕機事故是較為常見(jiàn)的原因是流量負載過(guò)大。就好比春運一樣,短時(shí)間內大量人員的流動(dòng)導致了鐵路部門(mén)的緊張,而突發(fā)性高并發(fā)量訪(fǎng)問(wèn)則使得系統服務(wù)器癱瘓宕機。

  流量過(guò)大,往往在網(wǎng)游中會(huì )出現,魔獸世界在中國的代理商由九城變更為網(wǎng)易,與九城服務(wù)器經(jīng)常宕機不無(wú)關(guān)系,但是換作網(wǎng)易后服務(wù)器也是經(jīng)常宕機。

天極網(wǎng)



冷水江市| 涿州市| 得荣县| 慈溪市| 洞口县| 文山县| 渭源县| 大英县| 英山县| 毕节市| 綦江县| 明溪县| 调兵山市| 逊克县| 新安县| 胶南市| 防城港市| 泸定县| 梧州市| 石台县| 温州市| 收藏| 白玉县| 吴川市| 杂多县| 泌阳县| 攀枝花市| 阿坝县| 顺昌县| 岑溪市| 天台县| 左权县| 陆良县| 茌平县| 平远县| 鄄城县| 平湖市| 玛多县| 隆德县| 商城县| 仪陇县|