當(dāng)OpenStack遇見頂尖學(xué)府
CTI論壇(ctiforum)10月28日消息(記者 李文杰):OpenStack正在全球范圍掀起應(yīng)用熱潮,僅在科研領(lǐng)域,便有歐洲核子研究組織CERN借助OpenStack去探求宇宙起源,NASA借助OpenStack去尋找地外人類家園。日前,頂尖學(xué)府清華大學(xué)交叉信息研究院成功構(gòu)建國內(nèi)最大規(guī)模的OpenStack科研云平臺,單個集群規(guī)模達(dá)到6000個Core,16TB內(nèi)存,540TB存儲的規(guī)模,幫助清華大學(xué)在生物醫(yī)療、基因測序、社交網(wǎng)絡(luò)、自然語言分析等新興學(xué)科領(lǐng)域進(jìn)行了卓有成效的探索。這一項目同時讓清華大學(xué)交叉信息研究院的數(shù)據(jù)中心采購成本降低60%,例行IT管理任務(wù)所花時間減少33%,能源成本降低80%。
清華大學(xué)交叉信息研究院
清華大學(xué)交叉信息研究院成立于2010年12月30日,由世界著名計算機(jī)學(xué)家、2000年計算機(jī)科學(xué)最高獎圖靈獎得主、美國科學(xué)院院士、美國藝術(shù)與科學(xué)學(xué)院院士、中國科學(xué)院外籍院士姚期智院士領(lǐng)導(dǎo),是國內(nèi)首個致力于交叉信息科學(xué)研究的教學(xué)科研單位,致力于在計算機(jī)科學(xué)與技術(shù)和物理學(xué)兩大學(xué)科方向上開展交叉建設(shè),也是國內(nèi)在量子信息研究最前沿的科研機(jī)構(gòu)。
新科研需求與院校云平臺選型
隨著越來越多科研項目的需要借助計算機(jī)集群,原有的使用單一HPC集群處理單一科研項目的“好日子”一去不復(fù)返了。舊的IT架構(gòu)讓科學(xué)家們在面臨科學(xué)研究時,已經(jīng)不能將注意力放在科研本身了。
“不應(yīng)讓科學(xué)家們?nèi)ヒ驣T具備靈活性,而是IT系統(tǒng)隨時都可以按需而動。”著名生物學(xué)家John Boyle在Nature的論文《生物學(xué)需要發(fā)展自身的大數(shù)據(jù)系統(tǒng)》這樣對IT系統(tǒng)的靈活性提出了強(qiáng)烈的需求。
“這該死的I/O!”加州大學(xué)圣克魯茲分銷的David Haussler教授更直接的對IT系統(tǒng)中的性能優(yōu)化十分懊惱。
如今,讓院校IT運(yùn)維人員頭疼的是各種科研需求均需要使用計算機(jī)集群來進(jìn)行計算分析,清華大學(xué)交叉信息研究院目前就需要對科學(xué)影像處理、冷凍電鏡與蛋白質(zhì)結(jié)構(gòu)、在線教育數(shù)據(jù)分析、社交網(wǎng)絡(luò)分析、自然語言處理、基因組測序分析等一系列項目進(jìn)行支持。盡管擁有超過200臺x86服務(wù)器,但不同項目對計算資源的不同需求、系統(tǒng)配置讓清華大學(xué)交叉信息研究院的IT運(yùn)維難堪重負(fù)。
200臺物理服務(wù)器,超過2PB的存儲空間,10TB的固態(tài)存儲、光纖+軟交換的IT架構(gòu)已經(jīng)讓包括清華大學(xué)交叉信息研究院助理院長的徐葳在內(nèi)也僅有兩名的IT運(yùn)維人員捉襟見肘,就更不要說原本希望自己嘗試解決IT系統(tǒng)靈活性的OpenStack+Ceph+Hadoop\Spark\Matlab\SAP HANA的云計算嘗試了。
為了更好的利用原有的硬件資源,同時構(gòu)建起國內(nèi)最大規(guī)模的產(chǎn)學(xué)研一體化OpenStack云平臺。尋找一家值得信賴的長期戰(zhàn)略合作伙伴,提供企業(yè)級可靠、開放、高性能的方案和專業(yè)服務(wù)至關(guān)重要。由于對EasyStack專業(yè)性的認(rèn)可,清華大學(xué)交叉信息研究院選擇了與其共建OpenStack產(chǎn)學(xué)研云平臺。
需求與方案設(shè)計
清華交叉學(xué)院的數(shù)據(jù)中心,根據(jù)現(xiàn)有服務(wù)器硬件基礎(chǔ)上,設(shè)計合理的云平臺方案,配備網(wǎng)卡/SSD/SATA盤等,達(dá)到OpenStack的硬件配置要求,利用暑假的一周停機(jī)時間,完成OpenStack產(chǎn)學(xué)研云平臺的部署上線。
-- HA
OpenStack作為清華大學(xué)內(nèi)部的公有云平臺,首期規(guī)模為125個物理節(jié)點,綜合集群規(guī)模和訪問負(fù)載情況,控制節(jié)點采用5節(jié)點高可用方案。未來根據(jù)使用情況,可隨時增擴(kuò)。通過使用集群/主備/負(fù)載均衡等HA方式,對MySQL/Message Queue/API服務(wù)/Web訪問等服務(wù)配置全方位高可用方案。
-- 存儲
通過對OpenStack各服務(wù)的改進(jìn)增強(qiáng),Nova/Glance/Cinder統(tǒng)一使用Ceph RBD作為后端存儲,實現(xiàn)云主機(jī)/快照/云硬盤等云資源的秒級獲取。Ceph存儲集群設(shè)置三副本,保證數(shù)據(jù)的高可用性。為充分利用物理機(jī)資源,在計算節(jié)點增加SSD/SATA盤和萬兆網(wǎng)卡,采用存儲與計算融合方式,并通過Cgroup/taskset等手段對計算和存儲進(jìn)程進(jìn)行資源隔離,保證計算和存儲性能穩(wěn)定可靠,互不干擾。
-- 網(wǎng)絡(luò)
使用VLAN+OVS方式配置網(wǎng)絡(luò),合理分配不同網(wǎng)絡(luò)平面的流量,并為生產(chǎn)網(wǎng)絡(luò)預(yù)留足夠的VLAN ID范圍,方便眾多老師和學(xué)生搭建自己的私有網(wǎng)絡(luò)。L3 agent將負(fù)載均分到五個控制節(jié)點上,在單個L3失效的情況下,其上的配置會自動reschedule到其他節(jié)點,最大程度減少網(wǎng)絡(luò)中斷,并可根據(jù)需要對南北向和東西向網(wǎng)絡(luò)流量進(jìn)行合理限速。
-- 賬號管理
OpenStack集群部署完畢之后,通過對Keystone配置文件的調(diào)整來對接LDAP,LDAP所有用戶將呈現(xiàn)在OpenStack的用戶列表中。再通過對現(xiàn)有LDAP用戶權(quán)限的調(diào)整,用戶登錄后將呈現(xiàn)所在權(quán)限級別的訪問界面。新創(chuàng)建的LDAP用戶將通過OpenStack聯(lián)動腳本,帳號創(chuàng)建完畢即可登錄云平臺訪問。在LDAP中通過分組來區(qū)分不同的院系,每個院系將指定一位“企業(yè)”管理員,管理他所在院系的用戶/項目/計費(fèi)等。
-- 計費(fèi)
通過對Ceilometer的增強(qiáng),計費(fèi)系統(tǒng)實現(xiàn)對云資源的秒級精確計費(fèi)。配合分級帳號管理系統(tǒng),每個院系作為一個單獨的計費(fèi)單位進(jìn)行收費(fèi)。計費(fèi)價格可以由云管理員隨時調(diào)整,并在指定的日期生效。通過支付寶等在線支付方式可以隨時為本院系充值。
-- 節(jié)點部署方案
清華大學(xué)遇見OpenStack
通過合理分配網(wǎng)絡(luò)平面的流量,將不同網(wǎng)絡(luò)的訪問進(jìn)行隔離,保證網(wǎng)絡(luò)訪問通暢。其中,計算與存儲融合的節(jié)點上,兩個萬兆網(wǎng)口做Load Balance綁定,提升網(wǎng)絡(luò)吞吐量,保證Ceph副本的快速寫入。
部署
-- 虛擬機(jī)備份/恢復(fù)
在實施之前,通過Ansible自動化工具,在現(xiàn)有集群的物理節(jié)點上將虛擬機(jī)并行備份。利用本地磁盤作為虛擬機(jī)備份的快速周轉(zhuǎn)空間,并在遠(yuǎn)端保留副本。新集群部署完畢之后,再將虛擬機(jī)恢復(fù)到對應(yīng)的用戶賬號下。通過自動化腳本批量將虛擬機(jī)鏡像直接傳入Ceph集群中,極大縮短導(dǎo)入時間,再將權(quán)限屬性匹配原有賬戶,用戶登陸后即可使用虛擬機(jī)鏡像恢復(fù)原有的云主機(jī)了。
-- 磁盤分布
將SSD盤作為大容量SATA盤的Ceph OSD日志盤,大幅提升Ceph集群的IO性能,支撐Hadoop/Spark等應(yīng)用對高性能的要求。
-- 網(wǎng)絡(luò)
按照網(wǎng)絡(luò)規(guī)劃,在交換機(jī)上設(shè)置VLAN以對應(yīng)不同網(wǎng)絡(luò)平面。同時,在路由器和防火墻上設(shè)置網(wǎng)絡(luò)地址映射,對外公開OpenStack集群的Web訪問。 Ceph cluster網(wǎng)絡(luò)使用Load Balance方式,綁定兩個萬兆網(wǎng)卡,實現(xiàn)Ceph副本數(shù)據(jù)的快速傳輸。
-- 資源管理
大規(guī)模集群的部署涉及到資產(chǎn)管理的問題,所有物理機(jī)機(jī)器均已登記在冊,并在機(jī)架的固定位置標(biāo)號。EasyStack的安裝工具Roller為指定MAC地址分配IP,保證新集群部署完畢之后與現(xiàn)有資產(chǎn)表保持完全一致。后期運(yùn)維同樣可以使用Roller靈活擴(kuò)展集群規(guī)模。
-- 權(quán)限管理
OpenStack實現(xiàn)三層分級賬戶權(quán)限管理, ESCloud為不同權(quán)限級別的用戶呈現(xiàn)不同的導(dǎo)航界面,admin云管理員管理整個OpenStack集群,每個學(xué)院將有各自獨立的“企業(yè)”管理員管理自己學(xué)院的老師/學(xué)生對云資源的申請及日常運(yùn)維工作,普通用戶申請云平臺的各項云資源。
運(yùn)維
-- 監(jiān)控
為集群定制監(jiān)控項目,通過直觀的Web dashboard,查看集群各項指標(biāo)的當(dāng)前及歷史運(yùn)行狀態(tài)。設(shè)置異常告警閾值,即時通知管理員,修復(fù)異常狀況。通過各項數(shù)據(jù)的規(guī)律提前判斷是否需要擴(kuò)容等。
-- 帳號
ESCloud除支持本地創(chuàng)建用戶之外,全面支持與AD/LDAP的對接。在清華項目中,OpenStack對接LDAP帳號管理系統(tǒng),并與OpenStack聯(lián)動。創(chuàng)建LDAP賬戶時,自動為賬戶創(chuàng)建OpenStack項目和網(wǎng)絡(luò),新建的LDAP賬戶可以即刻登陸集群使用云服務(wù)。
-- Log集中管理
集群各物理節(jié)點中的日志數(shù)據(jù)通過rsyslog遠(yuǎn)程集中存儲,方便日志分析。
-- 公告欄
云系統(tǒng)管理員具有權(quán)限發(fā)布公告,公告內(nèi)容將發(fā)布在云平臺登陸首頁,方便對所有用戶廣播消息。
-- QoS
根據(jù)使用情況對云主機(jī)/云硬盤進(jìn)行訪問限速,合理分配集群資源。對南北/東西向網(wǎng)絡(luò)流量合理配置帶寬限制。
-- 對集群中的MySQL/Message Queue跟蹤
所有對集群的MySQL數(shù)據(jù)的操作都將出發(fā)新建一個數(shù)據(jù)項目,并在RabbitMQ添加跟蹤項目,通過對這些收集的數(shù)據(jù)進(jìn)行整理分析,可以通過圖形化的方式展現(xiàn)現(xiàn)有集群的狀態(tài),并動態(tài)檢測/定位集群出現(xiàn)的問題。
項目特點
-- 高可用
通過HA以及EasyStack ESCloud云平臺的高可靠設(shè)計等方案的實施使之區(qū)別并領(lǐng)先于其它OpenStack發(fā)行版,可用于承載核心業(yè)務(wù)的中大規(guī)模云計算環(huán)境,輕松應(yīng)對業(yè)務(wù)挑戰(zhàn)。
-- 開放兼容利舊
ESCloud云管理平臺具有極高的開放性,屏蔽底層不同品牌,讓學(xué)院擁有大量舊有基礎(chǔ)設(shè)施,能夠充分的利用起來。
-- 性能優(yōu)化
EasyStack的ESCloud平臺深入優(yōu)化計算、存儲以及網(wǎng)絡(luò)性能,從KVM、OVS、CEPH等最底層技術(shù)開始源代碼級優(yōu)化,最終提供接近物理硬件能力的計算、存儲和網(wǎng)絡(luò)性能,為該項目的Hadoop、Spark、Docker、入侵檢測等研究課題提供高性能服務(wù),勝任科研需求。
-- 多層權(quán)限管理
運(yùn)維上,ESCloud提供了三層權(quán)限管理,各個課題項目組或者其它院系可以按照實際需求再行分配和管理資源,配合精細(xì)化計費(fèi)功能,大大降低了學(xué)院的運(yùn)維成本。
最終,清華大學(xué)交叉信息研究院的OpenStack產(chǎn)學(xué)研云平臺項目的單個集群規(guī)模達(dá)到6000個Core,16TB存儲,540TB存儲的規(guī)模,是國內(nèi)最大規(guī)模的產(chǎn)學(xué)研一體化OpenStack云平臺。
同時,這一項目讓清華大學(xué)交叉信息研究院的數(shù)據(jù)中心采購成本降低60%,例行IT管理任務(wù)所花時間減少33%,能源成本降低80%。
結(jié)語
“EasyStack幫助學(xué)院采用ESCloud全開源云計算解決方案搭建了國內(nèi)高校最大規(guī)模的產(chǎn)學(xué)研一體化OpenStack云環(huán)境,投產(chǎn)后主要用于大數(shù)據(jù)分析、分布式系統(tǒng)的教學(xué)科研,以及為其他院系提供付費(fèi)云服務(wù),不僅降低了采購和運(yùn)維成本,更讓學(xué)校內(nèi)有限的人員力量投入到更有價值的科研項目之中!” 清華大學(xué)交叉信息研究院助理院長徐葳表示。