近日,華為超融合數據中心網絡智能無損技術論文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能數據中心網絡中的ECN動態(tài)調優(yōu))入選ACM SIGCOMM 2021,表明超融合數據中心網絡的智能無損技術得到業(yè)內專家的一致認可,具有世界級技術影響力。
SIGCOMM是美國計算機協會在通信網絡領域的旗艦型會議,也是目前國際通信網絡領域的頂尖會議。SIGCOMM對論文的質量和數量要求極高,質量方面要求具有基礎性貢獻、領導性影響和堅實系統背景。SIGCOMM錄用的論文大多數會被廣泛引用,具有非常大的影響力。

全無損以太核心算法:獨創(chuàng)Automatic ECN
本次入選的ACC(Automatic ECN)技術是華為全無損以太網絡智能無損技術的代表。當今,隨著AI和云業(yè)務發(fā)展,數據中心承載著諸多需要高帶寬和低延遲的應用,包括大數據處理、分布式存儲和高性能計算。而在已經廣泛部署的擁塞控制方案中,顯示擁塞通知(ECN: Explicit Congestion Notification)在保障網絡和業(yè)務高帶寬低時延中起到關鍵作用。但是傳統的靜態(tài)ECN參數配置,無法自適應數字時代種類繁多的動態(tài)業(yè)務流量模型。
例如,在不同廠商交換機、網卡等組成大型異構數據中心網絡中,協同聯調靜態(tài)ECN參數變得非常困難;尤其在云多租戶網絡中,存在不同時空流量模型,導致網絡工作負載動態(tài)變化,需要不同時間點適配ECN參數,事先配置的ECN參數則無法滿足動態(tài)業(yè)務流量的性能需求。因此,在大規(guī)模高速組網和多租戶業(yè)務流量等復雜場景下,人工調整全網適配ECN參數成為巨大挑戰(zhàn)。
基于此,華為聯合南京大學設計和實現ACC。ACC通過在超高速數據中心交換機中首次成功應用深度強化學習(DRL:Deep Reinforcement Learning)技術,自適應流量模型來動態(tài)調整ECN參數,從而簡化網絡運營,實現網絡高利用率和低延遲。同時, ACC設計分布式多智能體技術實現大規(guī)模組網下可擴展性、基于商用交換芯片Telemetry能力實現快速可部署性、結合在線和離線訓練方式提高場景的可泛化性,從而最終達到大規(guī)模高速網絡的高吞吐和低時延性能目標,并且從業(yè)務層面保障應用性能表現最優(yōu)。
華為超融合數據中心網絡CloudFabric 3.0,新以太釋放新算力
在ACC理論研究基礎上,華為推出了超融合數據中心網絡CloudFabric 3.0解決方案,保障網絡高吞吐低時延,100%釋放算力。
在ACC理論研究基礎上,華為推出了超融合數據中心網絡CloudFabric 3.0解決方案,保障網絡高吞吐低時延,100%釋放算力。

華為超融合數據中心網絡CloudFabric 3.0解決方案基于全以太架構構建0丟包的計算和存儲網絡,助力算力100%釋放。該方案打破通用計算、存儲、高性能計算三套網絡架構的限制,統一使用以太網架構實現流量承載融合。該方案在業(yè)界率先實現L3自動駕駛網絡能力、全生命周期自動化與全網智能運維,OPEX降低30%,使能企業(yè)智能化升級。
華為數據中心網絡已經在全球包括金融、政府、互聯網、制造、能源等各大行業(yè)客戶的數據中心部署。華為將持續(xù)投入智能無損技術研究,持續(xù)提升網絡能力,充分釋放算力,使能企業(yè)智能化升級。
查看論文:https://dl.acm.org/doi/10.1145/3452296.3472927