谷歌將CloudDataflow捐獻給Apache軟件基金會(huì ),以此開(kāi)放更多源代碼。此舉對谷歌來(lái)說(shuō)可謂開(kāi)了先河,為大數據公司提供了新的基于云的數據分析方案和集成機會(huì )。
CloudDataflow是一種用來(lái)處理云端大量數據的平臺。它擁有一種基于Java的開(kāi)源SDK(軟件開(kāi)發(fā)工具包),這樣一來(lái),就很容易與其他以云為中心的分析和大數據工具實(shí)現集成。該平臺對大數據業(yè)務(wù)來(lái)說(shuō)主要的價(jià)值在于,提供了與新出現的技術(shù)保持兼容的優(yōu)點(diǎn),同時(shí)仍可以整合到現有工作流程中。這樣一來(lái),每當出現一種新的數據處理框架,企業(yè)組織就沒(méi)必要重新改動(dòng)其分析基礎設施或代碼。
雖然DataflowSDK在一年多前就已開(kāi)源,但谷歌在這周邁出了更大的一步:提議將這個(gè)平臺變成Apache孵化器項目。此舉為Dataflow的代碼庫最終成為Apache軟件基金會(huì )旗下一個(gè)完備的項目鋪平了道路。谷歌與Cloudera、dataArtisans、Talend、Cask和PayPal共同提出了這個(gè)提議;這項提議如果獲得批準,就更容易以一種開(kāi)源、與廠(chǎng)商中立的方式,將Dataflow在可擴展性和集成方面的功能做入到商業(yè)大數據平臺中。
比如說(shuō),Talend就這么說(shuō):“充分利用Dataflow框架的開(kāi)發(fā)人員不會(huì )被某一種特定的數據處理運行時(shí)環(huán)境‘鎖定’,能夠充分利用新出現的數據處理框架,沒(méi)必要重寫(xiě)其Dataflow流水線(xiàn),因而可以適應未來(lái)的需要。”對渠道而言,谷歌的提議意味著(zhù),云和大數據勢必會(huì )更相輔相成地一同發(fā)展,這會(huì )讓開(kāi)源大數據公司更容易確保未來(lái)的數據分析解決方案具有開(kāi)放性。