今天,我們正處于一個信息社會,每年產(chǎn)生的信息數(shù)量呈幾何級數(shù)增長,而數(shù)據(jù)的存儲、處理和分析等主要發(fā)生在數(shù)據(jù)中心中,這就對數(shù)據(jù)中心網(wǎng)絡提出了新的需求和新的挑戰(zhàn),如何滿足需求和解決挑戰(zhàn),是我們面臨的新課題。

云數(shù)據(jù)中心網(wǎng)絡面臨的新需求和新挑戰(zhàn)
眾所周知,云計算的核心理念是硬件資源池化、軟件全分布化和運行全自動化,這種新的分布式計算架構(gòu)和存儲架構(gòu)的基本需求是跨計算節(jié)點訪問數(shù)據(jù),這使得數(shù)據(jù)中心內(nèi)的東西流量遠遠高于數(shù)據(jù)中心與用戶之間的南北流量,有的場景下甚至會高出40倍,比如搜索等。網(wǎng)絡無阻塞成為支持云計算的基本要求。而今天的匯聚性CLOS數(shù)據(jù)中心網(wǎng)絡架構(gòu)面臨的新挑戰(zhàn),主要包括以下幾個方面。
P級無阻塞交換的容量需求
一般來說,典型云數(shù)據(jù)中心的服務器規(guī)模為5~10萬臺,這些服務器既可以是在一個大型數(shù)據(jù)中心基地內(nèi),也可以分布在200公里范圍內(nèi)的多個機房。以3000~4000臺服務器組成一個POD集群,集群內(nèi)部實現(xiàn)嚴格的無阻塞網(wǎng)絡,集群間則最大程度實現(xiàn)無阻塞網(wǎng)絡,以更大規(guī)模地實現(xiàn)計算和存儲的共享,此種情況下,網(wǎng)絡對交換容量的需求極其巨大。以每個服務器4個10G接口計算,網(wǎng)絡容量要達到2P~4P的能力,即使集群間按照1:4收斂比計算,云數(shù)據(jù)中心網(wǎng)絡的容量也將達到P級需求(1P=1000T)。
傳統(tǒng)設(shè)備匯聚的網(wǎng)絡架構(gòu),其核心交換機的最大容量當前約為50Tbps,如果不改變網(wǎng)絡架構(gòu),要滿足未來的需求核心交換機就要達到100~200Tbps的容量,以電互連為基礎(chǔ)的技術(shù)要提升Serdes速度、提升更大的單機容量非常困難,而且單點故障的影響將變得越來越巨大,成本也越來越高昂,難以為繼。
網(wǎng)絡設(shè)備的功耗密度大
數(shù)據(jù)中心的功耗也是巨大的挑戰(zhàn)。數(shù)據(jù)中心設(shè)施中耗電“大戶”眾多,歷來被稱為“電力殺手”;更為關(guān)鍵的是還要實現(xiàn)能量密度的均勻,因為能量密度不均勻?qū)﹄娏ο到y(tǒng)、冷卻系統(tǒng)、數(shù)據(jù)中心空間以及數(shù)據(jù)中心安全等都會帶來巨大的影響。
核心交換機因其容量巨大,功耗約近3萬瓦。一般來說,老機房單機架供電能力是4~5千瓦,新機房單機架供電能力是8千瓦到1.2萬瓦。如果單個設(shè)備功耗過大,成為“功耗高地”,設(shè)備前后左右就必須留出足夠的空間來保障為其供電。同時,散熱系統(tǒng)也要嚴格保證其工作環(huán)境要求,從而使整體機房空間的密度難以提升,又給供電散熱帶來了很大的挑戰(zhàn),隨著網(wǎng)絡規(guī)模的不斷增大,功耗和散熱也變得越來越難以為繼。
海量連纖成為數(shù)據(jù)中心運維和規(guī)模擴展的瓶頸
傳統(tǒng)三層網(wǎng)絡設(shè)備的連接,需要通過核心交換機來轉(zhuǎn)發(fā)TOR的組間流量,即最終需要將光纖匯聚于核心機房,從而產(chǎn)生了“光纖墻”問題,密密麻麻的光纖會變得像一堵墻一樣,讓運維非常復雜。
通過大容量端口可以減少光纖,比如40GE或者100GE端口,但出于對光模塊成本的考慮,一般會采用4×10G或者10×10G的多模并行光模塊,40GE需要4對光纖,100GE需要10對光纖,光纖數(shù)量實際上并不會減少,對運維仍將帶來很大的挑戰(zhàn);與此同時,設(shè)計機房的架頂時,一般的設(shè)計規(guī)格是承受2000束左右的光纖,這樣,核心機房的連纖數(shù)量也進一步限制了全網(wǎng)無阻塞交換的容量,即最大可以達到約200Tbps(2000×100GE)。
因此,隨著云計算的發(fā)展,云數(shù)據(jù)中心的規(guī)模日益變大、東西流量日益增加,數(shù)據(jù)中心網(wǎng)絡將面臨新的需求,特別是P級無阻塞交換容量的需求。而傳統(tǒng)的網(wǎng)絡架構(gòu)面臨著容量、供電、功耗、擴展性和運維等一系列難以解決的問題,需要新的架構(gòu)來解決問題。
面向未來,構(gòu)建Scale Out數(shù)據(jù)中心網(wǎng)絡

MESH網(wǎng)絡架構(gòu)邏輯圖
MESH網(wǎng)絡架構(gòu)的關(guān)鍵特征:第一是超級扁平化,全網(wǎng)只有TOR交換機一層,直接部署在每一個服務器機柜上。將數(shù)據(jù)中心網(wǎng)絡的多層匯聚結(jié)構(gòu)變革為一層物理網(wǎng)絡結(jié)構(gòu),全網(wǎng)由一種規(guī)格和配置相同的小交換機連接而成,每臺交換機都有組內(nèi)MESH和組間MESH連接,不再需要傳統(tǒng)架構(gòu)中的大容量匯聚與核心交換機。
每個TOR交換機的端口分為3組:第一組是連接服務器的本地端口;第二組是連接同一POD內(nèi)其他TOR交換機的組內(nèi)連接端口,形成組內(nèi)一級MESH連接;第三組是連接不同POD間TOR的組間連接端口,組間連接端口與不同POD間的相同組間平面的TOR相連,形成組間二級MESH連接。標準的二級MESH網(wǎng)絡由N×N個TOR節(jié)點組成,其中共有N個POD,每個POD有N個TOR節(jié)點。
第二是光網(wǎng)絡進入數(shù)據(jù)中心,采用波分和無源光器件CAWG(Cyclic Array Waveguide Grating,循環(huán)陣列波導光柵)來解決MESH互聯(lián)。無論組內(nèi)還是組間的MESH連接,都需要有光纖與相關(guān)節(jié)點直連。如果網(wǎng)絡規(guī)模很大,例如共有48×48個節(jié)點的網(wǎng)絡,網(wǎng)絡的連纖數(shù)量巨大,需要幾十萬對光纖,且每根連纖的節(jié)點方向也不相同。為了解決光纖的MESH連接問題,引入了波分接口和CAWG,交換機采用WDM接口(可內(nèi)置在交換機中,也可以獨立部署),TOR交換機的N個發(fā)送端口經(jīng)合波器合波后,與CAWG的輸入纖相連,利用該光器件,不僅可以將交換機邏輯上的MESH連接轉(zhuǎn)變成物理上的星形連接,而且解決了大規(guī)模數(shù)據(jù)中心網(wǎng)絡的海量連纖問題。
第三是MESH?網(wǎng)絡的分布式轉(zhuǎn)發(fā)實現(xiàn)了無阻塞交換和智能路由調(diào)度,提高了網(wǎng)絡吞吐率。MESH網(wǎng)絡在物理上是一層網(wǎng)絡,在轉(zhuǎn)發(fā)模型上依然是CLOS三級網(wǎng)絡,只不過是分布式的,即TOR交換機完成TOR、匯聚和核心3層交換機的功能,把匯聚和核心交換機的能力分布到每一個TOR交換機上,從而消除了系統(tǒng)的中心點和瓶頸。并且,相比傳統(tǒng)的CLOS架構(gòu),因為MESH網(wǎng)絡存在直達路徑,通過智能的、不等價多路徑的路由調(diào)度算法,數(shù)據(jù)流量在DC內(nèi)的轉(zhuǎn)發(fā)跳數(shù)將會減少,使得MESH網(wǎng)絡的時延性能和轉(zhuǎn)發(fā)效率都得到顯著提高。
Scale Out架構(gòu)的價值:超大容量、去中心、易維護、高系統(tǒng)可靠性
Scale Out MESH?網(wǎng)絡的實質(zhì)是將傳統(tǒng)CLOS三層網(wǎng)絡的匯聚與核心層節(jié)點的交換能力分配到了TOR上,突破了傳統(tǒng)匯聚架構(gòu)的瓶頸。其核心價值表現(xiàn)在以下幾個方面:
- 第一是全分布式的扁平化架構(gòu)突破了容量的瓶頸,可以構(gòu)建超大容量的網(wǎng)絡。采用兩級MESH?網(wǎng)絡組建1Pbps級的無阻塞數(shù)據(jù)中心網(wǎng)絡(支持5萬臺雙10G接口的服務器),每個TOR的容量需求為5×48×10G=2.4Tbps,即240個10Gbps接口,或者48個10Gbps接口(連接服務器)和96個25Gbps接口(TOR之間互聯(lián)),TOR實現(xiàn)這樣的能力是很容易的。相比較而言,如果采用傳統(tǒng)CLOS組網(wǎng)方式,核心交換機需要200Tbps以上的交換容量,這將是非常巨大的挑戰(zhàn)。
- 第二是去中心的架構(gòu)和光技術(shù)的引入,消除了功耗、散熱、布線和維護等工程瓶頸。新架構(gòu)下去除了核心交換機和匯聚交換機等大型設(shè)備,只有TOR交換機,與一個機架服務器一樣,由此消除了系統(tǒng)中的“功耗高地”,使供電、冷卻和安全不再是數(shù)據(jù)中心的棘手問題。同時,波分和CAWG的引入使得全網(wǎng)的光纖連接數(shù)量減少了數(shù)十倍,并且均勻分布在每個機房模塊,大大簡化了布線和運維等問題,也極大降低了OPEX運維成本。
- 第三是分布式系統(tǒng)的系統(tǒng)可靠性替代了單機可靠性,消除了單點故障的風險。傳統(tǒng)數(shù)據(jù)中心隨著交換容量的增大,匯聚層與核心層節(jié)點的重要性更為突出,尤其在匯聚結(jié)構(gòu)中,核心交換機的故障對全網(wǎng)流量交換的影響非常重大,運維人員對匯聚與核心節(jié)點的維護需要倍加小心;而新架構(gòu)下全網(wǎng)只有TOR一層物理網(wǎng)絡節(jié)點,由于TOR節(jié)點數(shù)量眾多,一臺節(jié)點故障只影響本機柜服務器的流量交換,流量影響只占全網(wǎng)的數(shù)千分之一,這就從根本上消除了節(jié)點故障導致大面積網(wǎng)絡癱瘓的可能性,使網(wǎng)絡的可靠性大大提升。
Scale Out網(wǎng)絡的問題和未來發(fā)展
Scale Out網(wǎng)絡還有兩個不足的地方:一個是CAWG是固定方向的波長交叉,使得靈活組網(wǎng)和平滑擴展受到制約;另一個是TOR之間的互聯(lián)接口帶寬都相同,不能靈活升級,而只能整體升級。雖然這些問題可以通過工程方法、工程部署方式或者在實際應用中來避免或者優(yōu)化,但還不能徹底解決問題,還需要進一步創(chuàng)新來解決,比如靈活的光交叉技術(shù)和可變帶寬光端口等。這些光技術(shù)的發(fā)展也將成為數(shù)據(jù)中心網(wǎng)絡未來發(fā)展的核心,使光技術(shù)和光網(wǎng)絡成為數(shù)據(jù)中心網(wǎng)絡的基礎(chǔ)。
綜上所述,隨著云計算和云服務的發(fā)展,海量信息的爆炸和數(shù)據(jù)流量模型的改變正在給數(shù)據(jù)中心網(wǎng)絡帶來新需求和新挑戰(zhàn),需要用新的思維模型、新的設(shè)計理念以及新的技術(shù)架構(gòu)來重新思考數(shù)據(jù)中心網(wǎng)絡的發(fā)展方向。Scale Out MESH?架構(gòu)的數(shù)據(jù)中心網(wǎng)絡,采用云計算的理念和思想、借助光網(wǎng)絡的技術(shù)來構(gòu)建Scale Out網(wǎng)絡架構(gòu),解決了傳統(tǒng)CLOS數(shù)據(jù)中心網(wǎng)絡架構(gòu)難以克服的問題。通過全分布式的一層網(wǎng)絡架構(gòu)和智能的路由調(diào)度算法,能夠構(gòu)建出Pbps級的超大容量網(wǎng)絡并實現(xiàn)更高的網(wǎng)絡效率;通過去中心化來解決功耗、散熱、布線和維護等工程問題,降低了單點故障的風險,不依賴單個設(shè)備構(gòu)建系統(tǒng)的可靠性,是未來云數(shù)據(jù)中心網(wǎng)絡發(fā)展的核心方向。
顏清華和朱廣平/文