華為云CTO張宇昕表示:“華為云一直致力于云原生技術、產(chǎn)業(yè)和生態(tài)的建設,Volcano融入了華為云在云原生、AI、大數(shù)據(jù)、HPC等領域中沉積的行業(yè)和技術經(jīng)驗,促進云原生技術與企業(yè)數(shù)據(jù)資產(chǎn)高效融合、充分釋放數(shù)據(jù)紅利,加速企業(yè)數(shù)字化、智能化進程。”
CNCF首席技術官Chris Aniszczyk也表示:“對于復雜的Kubernetes工作負載,尤其是AI、大數(shù)據(jù)等領域,批處理可以大大簡化部署。以云原生的方式來精簡大批量數(shù)據(jù)的處理是非常新穎和有價值的實踐,Volcano使得Kubernetes能夠成為世界級的工具,助力科學研究、高性能計算等行業(yè)的發(fā)展。”
Volcano項目于2019年6月開源,2020年4月正式成為CNCF沙箱項目。Volcano自2020年進入CNCF以來,在人工智能、大數(shù)據(jù)、基因測序等海量數(shù)據(jù)計算和分析場景得到快速應用,并構建起完善的上下游生態(tài),目前愛奇藝、小紅書、蘑菇街、唯品會、鵬城實驗室、銳天投資等企業(yè)均已將Volcano應用于生產(chǎn)環(huán)境。
自加入CNCF以來,Volcano社區(qū)已吸引2.6萬全球開發(fā)者、并獲得2.3k Star和530+ Fork。眾多科技巨頭紛紛加入Volcano社區(qū)貢獻,海內(nèi)外生產(chǎn)落地用戶廣泛分布于互聯(lián)網(wǎng)、先進制造、金融、生命科學、科研等行業(yè)。Volcano也因其創(chuàng)新的技術理念、活躍的社區(qū)生態(tài)獲得第二屆“中國優(yōu)秀開源項目”和 “2021年OSCAR尖峰開源社區(qū)及開源項目獎”,其作業(yè)管理能力被寫入由中國信息通信研究院牽頭制定的《高性能計算(HPC)云平臺標準》,成為行業(yè)標準。
過去兩年,Volcano全球生態(tài)發(fā)展迅速,一批行業(yè)標桿用戶不僅積極地推動Volcano落地生產(chǎn)環(huán)境,也基于自身實踐反哺社區(qū),實現(xiàn)雙贏。
小紅書技術部負責人張雷表示:“云原生批量計算項目Volcano應用于小紅書大規(guī)模機器學習平臺、大數(shù)據(jù)平臺等生產(chǎn)系統(tǒng),支撐著搜索、推薦、廣告、內(nèi)容審核等多項關鍵業(yè)務,Volcano大大簡化和加速了大數(shù)據(jù)以及AI應用在云原生環(huán)境的落地進程,小紅書業(yè)務系統(tǒng)借助Volcano提供的豐富功能和優(yōu)越性能,實現(xiàn)了資源成本的降低和作業(yè)性能的提升,期待Volcano在云原生領域持續(xù)深耕,發(fā)揮更大價值。”
中科類腦研發(fā)總監(jiān)常峰提出:“Volcano是最早針對批量計算場景開源的云原生項目之一,其動態(tài)可配的高級調(diào)度策略和優(yōu)秀的資源管理能力解決了AI場景下作業(yè)調(diào)度、生命周期管理、異構硬件支持等多個問題。在落地實踐的過程中,我們基于Volcano的能力做擴展,有效提升了系統(tǒng)穩(wěn)定性和資源利用效率。期待加入CNCF后,在社區(qū)的加持下Volcano能持續(xù)孕育出更多優(yōu)秀的解決方案和最佳實踐。”
截止目前,Volcano社區(qū)共發(fā)布21個版本,最新版本為v1.5.1。2022年,社區(qū)將會進一步擴大技術版圖,聚焦以下能力建設:
- 跨云跨集群調(diào)度:跨集群一直是分布調(diào)度系統(tǒng)解決大規(guī)模、災備等問題的主要解決方案。同時,為了降低廠商綁定的風險,并最大限度兼顧不同云廠商的優(yōu)勢,多云環(huán)境下的負載高效分發(fā)逐漸成為趨勢。Volcano將會通過多個項目構建分層調(diào)度體系,基于全局資源視圖,提供多樣化策略如成本優(yōu)先、效率優(yōu)先等,為作業(yè)發(fā)放提供最佳決策;
- 在離線作業(yè)混部:針對業(yè)界普遍存在的數(shù)據(jù)中心集群資源率低下的問題,Volcano將圍繞業(yè)務感知、在離線統(tǒng)一調(diào)度、資源超賣、資源隔離與搶占、動態(tài)調(diào)度等能力的構建,在保證業(yè)務穩(wěn)定性的前提下實現(xiàn)降本增效;
- 彈性調(diào)度:針對彈性訓練、競價實例的場景,Volcano將會增強基于min,max的調(diào)度能力、作業(yè)感知、資源搶占能力,實現(xiàn)資源利用最大化;
- GPU虛擬化:推理場景以及GPU開發(fā)的場景,GPU使用率普遍偏低,Volcano已實現(xiàn)多容器共享使用GPU,未來將進一步增強算力、顯存的隔離能力,保障在提升利用率的同時,降低業(yè)務間的干擾;
- 細粒度資源管理:Volcano目前通過Queue提供資源的高效復用,針對更復雜的場景,Volcano將會通過Hierarchy Queue,、Policy per Queue、Plugin per Queue等機制提供更細粒度的管理和共享;
- 工作流管理:工作量的編排使用越來越廣泛,Volcano將基于子項目JobFlow,構建多場景、輕量化、高性能的編排能力;
- 基于真實負載的動態(tài)調(diào)度與重調(diào)度:針對當前基于資源申請進行的負載調(diào)度、資源碎片化引入的節(jié)點使用率不均衡的問題,Volcano將結合監(jiān)控能力構建基于真實負載的動態(tài)調(diào)度和重調(diào)度。
華為云一直是云原生新技術的探路者、產(chǎn)業(yè)新格局的開拓者,2015年華為作為唯一亞洲企業(yè)參與云原生計算基金會(CNCF)創(chuàng)建,并一直是CNCF核心項目的主要貢獻者,代碼貢獻穩(wěn)居亞洲第一。除Volcano項目外,華為云還捐獻了首個智能邊緣計算項目KubeEdge、首個多云容器編排項目Karmada,完善了CNCF的技術生態(tài);同時,華為云還擁有服務網(wǎng)格頂級開源社區(qū)Istio在亞洲的首個指導委員會席位。
為進一步推動云原生技術在各行業(yè)的落地、構建產(chǎn)業(yè)融合新格局,華為云聯(lián)合中國信通院先后發(fā)布了《云原生2.0白皮書》、《數(shù)字政府云原生基礎設施白皮書》為企業(yè)落地云原生提供體系化的理論參考,并與CNCF、中國信通院聯(lián)合成立了全球云原生交流平臺——創(chuàng)原會,為全球企業(yè)提供共享、共創(chuàng)、共贏的云原生交流平臺,已服務于500+企業(yè)的技術管理者。未來,華為云將持續(xù)與廣大客戶一起共建云原生產(chǎn)業(yè)生態(tài)圈,做深耕數(shù)字化的先行者。