
大數據時代的到來,令企業(yè)用戶認識到利用大數據幫助企業(yè)進行經營決策的重要性,各企業(yè)紛紛著手部署自己的大數據分析平臺。但平臺部署的復雜度及維護難度卻成為企業(yè)用戶大數據發(fā)展的路障。
大數據處理分析的結果將對用戶的決策產生直接影響,因此,數據處理過程需要更加實時、穩(wěn)定和準確,這些都對進行大數據分析處理的動力源平臺提出了更高的性能要求。此外,企業(yè)的業(yè)務變動會帶來大數據處理資源需求的頻繁變動,無論對于自建系統還是云平臺都會造成成本壓力,同時也帶來資源浪費。
面對挑戰(zhàn),可以快速部署、彈性擴展的金山云KMR產品能提供多種節(jié)點配置,彈性增加或減少節(jié)點,應對用戶多變的業(yè)務需求;同時,分鐘級集群部署和擴容能力,可以幫助用戶快速部署。
圍繞KMR,金山云還提供云存儲、云主機、關系型數據庫等一系列服務,為用戶提供延伸服務。同時,KMR通過與其他產品整合,也使用戶的運營成本更低,數據可靠性更高。
通過引入英特爾至強處理器E5家族、英特爾固態(tài)盤以及英特爾萬兆位以太網服務器適配器等產品,KMR產品在處理能力、穩(wěn)定性等多個性能指標上都擁有卓越表現。而這些優(yōu)勢又如何為企業(yè)帶來更好的體驗呢?
完全托管,集群分鐘級快速部署
過去,企業(yè)通過自建平臺來進行計算、存儲、數據處理等工作,這種方式會消耗大量資源在軟、硬件維護上。例如,部署一個典型的Hadoop平臺,通常需要經歷業(yè)務評估、設備選型采購、硬件上架調試、操作系統和平臺軟件安裝調試等一系列復雜工作,花費1-3個月的時間。同時,企業(yè)在專業(yè)維護人員上的缺失也使自建平臺在安全性、系統穩(wěn)定性等方面的表現不盡如人意。因此,很多企業(yè)都逐漸將目光轉移到云平臺上。
盡管如此,向云平臺的轉移卻并不能完全消除用戶在部署上遇到的問題,面對不同的業(yè)務需求,用戶仍需要耗費一定的資源去執(zhí)行部署和維護的工作。KMR的重要優(yōu)勢,就是能最大程度地幫助用戶降低部署的復雜度和運維的工作量。通過采用彈性計算服務 (Kingsoft Elastic Compute,KEC) 構建集群,通常情況下只需幾分鐘即可自動完成部署工作,用戶只需關心數據處理任務本身,而不需要關注硬件和底層系統的運維工作。
性能優(yōu)化,大數據分析即時響應
大數據分析處理的核心目的是為行為決策提供參考,因此時效性是評價其分析平臺能力好壞的重要指標。在一些特殊場景中數據的處理分析速度帶來的影響更不容小覷。

英特爾固態(tài)盤以及英特爾萬兆位以太網服務器適配器的引入,令KMR性能表現卓越。適用于PCIe的英特爾數據中心固態(tài)盤可以直接為英特爾至強處理器提供極致的數據吞吐量,在KMR中采用的高性能英特爾以太網聚合網絡適配器X520-SR2,針對苛刻的數據中心/云環(huán)境提供了高度的靈活性以及可擴展性。
在硬件產品以外,英特爾在各類大數據分析軟件庫上的貢獻也為金山云的性能加速提供了動力。例如英特爾高性能數據分析加速庫,包含了基于英特爾平臺優(yōu)化的常用機器學習算法庫(如K-Means,LR,PCA等)。在英特爾工程師的協助下,金山云完成了英特爾數據分析加速庫的評測。數據分析加速庫K-Means算法對應傳統的SparkML-Lib算法有近4.6倍性能提升。
生態(tài)豐富,彈性服務有效降低TCO
用戶數據從產生到最終體現價值,包含收集、存儲、分析處理和消費等多個環(huán)節(jié),每個環(huán)節(jié)又有多種多樣的需求。除了KMR以外,大數據的處理與分析還需要多種云服務能力的配合。基于金山云豐富的生態(tài)環(huán)境和良好的開放性,KMR不僅提供了豐富的開源生態(tài)組件,還可以和其他云服務產品以及第三方的解決方案無縫集成,共同構建端到端的大數據生態(tài)。

以存儲為例,KMR提供了金山云KS3(標準存儲服務)訪問接口。在進行數據處理時,通過內部高速網絡直接訪問KS3的同時,也可將原始數據統一匯總到這里。KMR集群中運行的MapReduce、Spark等作業(yè)就可以直接調用KS3中存儲的數據進行計算,并把結果寫回到KS3。KS3提供了較低的使用成本和極高的數據可靠性,保證了在集群釋放時仍然可以持久地存儲原始數據和計算結果。
展望未來,新技術助推更優(yōu)服務
實踐證明,英特爾至強處理器E5產品家族、英特爾固態(tài)盤以及英特爾萬兆位以太網服務器適配器有助于KMR性能提升,獲得更好用戶體驗。同時,英特爾不斷引領的各項大數據開源技術正為大數據處理分析技術的發(fā)展提供源源不斷的動力。

現在,英特爾開源了基于ApacheSpark的分布式深度學習庫BigDL,可以直接運行在金山云一類的Hadoop/Spark集群上,并允許用戶編寫標準的Spark程序來進行深度學習的訓練與預測。
未來,通過提供類似于BigDL的先進技術,英特爾可以幫助金山云的用戶在KMR及相關平臺上獲得數據存儲、預處理、分析和深度學習等一站式服務,獲得更強勁的大數據分析和處理能力。