97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

IBM產(chǎn)品介紹(西安站)
2014-11-28 11:43:42   評論:0 點(diǎn)擊:

  隨著(zhù)中國金融市場(chǎng)的快速發(fā)展,互聯(lián)網(wǎng)金融對傳統金融行業(yè)的競爭,以及監管力度的不斷加強,IT咨詢(xún)服務(wù)公司對金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng )新。如何提升金融機構在管理、盈利、風(fēng)險控等多方位的能力?如何將國際經(jīng)驗更好的為中國市場(chǎng)服務(wù)?如何通過(guò)解決方案將海量數據轉化為對經(jīng)營(yíng)決策有價(jià)值的信息之路?如何將客戶(hù)智能分析成果行之有效地運用于服務(wù)渠道,并最終轉換為銷(xiāo)售業(yè)績(jì)?為解決中國金融機構在發(fā)展中所面臨的新問(wèn)題,文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場(chǎng)“乘數據之舟,達價(jià)值彼岸”系列活動(dòng)。

  在主題為“乘數據之舟,達價(jià)值彼岸”的文思海輝商業(yè)智能解決方案系列研討會(huì )西安站現場(chǎng),IBM大數據專(zhuān)家張光業(yè)做了IBM產(chǎn)品介紹。

  以下為演講實(shí)錄:

  各位來(lái)賓下午好,我是IBM公司軟件部的張光業(yè)。剛才賈總已經(jīng)給大家介紹了建設企業(yè)基礎的信息平臺以及信息管控這方面的重要性,接下來(lái)我給大家介紹如何使用IBM的軟件包括IBM的解決方案幫助您來(lái)構建基礎的數據平臺,也解決數據倉庫平臺以及怎么幫我們實(shí)現信息管控和信息治理,也就是幫我們構建端到端的數據分析的解決方案,一個(gè)技術(shù)一個(gè)架構。

  剛才已經(jīng)講了很多的,今天專(zhuān)門(mén)談數據,正是因為數據現在已經(jīng)是我們整個(gè)企業(yè)的重要資產(chǎn),我們如何更好的利用這些數據,特別是現在我們進(jìn)入了大數據時(shí)代,對數據從它的緯度來(lái)講,從外延來(lái)講有了更多的延伸,比如銀行核心的還是我們現在客戶(hù)的信息,帳務(wù)信息,但是我們要做擴展,我們有很多微博信息,包括微信,社交媒體等等這些信息,旅游媒體信息,怎么來(lái)?yè)肀Ц訌V泛的數據幫助我們做更時(shí)時(shí)的決策這是對我們的要求,我們在面對大數據時(shí)代,怎么來(lái)實(shí)現剛才這些訴求,也就是在大數據時(shí)代,怎么來(lái)做?大家都聽(tīng)過(guò)大數據,一提就是Hadoop、streams非常熱,但是一定要有自己的原則,也就是說(shuō)在大數據時(shí)代,如何發(fā)揮作用首先一點(diǎn)我們還要堅持我們原來(lái)的現在已有的結構化數據,我們業(yè)務(wù)系統,數據倉的數據,還是最重要的源泉,同時(shí)我們要拓展我們思考的外延,也就是要納入一些更清新的東西,比如提到的一些媒體信息,包括日志信息,圖形圖象傳感器信息,幫助我們決策做到更精準,更時(shí)時(shí)。

  基于這些訴求,從IBM來(lái)講,也是提供了很好的大數據管理以及分析基礎的平臺,通過(guò)大數據分析技術(shù)平臺架構,我們現在做應用一定要做架構信息,一定要有穩定的架構,再這個(gè)架構上來(lái)構建我們的應用,才能保證我們的系統長(cháng)久的發(fā)展。從IBM來(lái)講也是提供了大數據分析基礎的平臺,這個(gè)基礎平臺從架構來(lái)講,基本上從幾個(gè)方面考慮,這邊是我們原來(lái)的核心系統,一些業(yè)務(wù)系統,包括新興的數據,比如社交媒體,位置信息,流的信息,怎么進(jìn)行實(shí)現呢?首先我們會(huì )通過(guò)信息整合的平臺來(lái)幫助把分布在各個(gè)業(yè)務(wù)系統里面的結構化信息,包括新興的非結構化信息,通過(guò)信息整合平臺來(lái)存儲到數據倉庫,數據倉庫包括ODS系統,包括數據集市幫助我們做信息分析,以做出更好的決策。

  因為大數據時(shí)代,我們的數據隔聲越來(lái)越多,現在我們有很多包括社交媒體信息,包括一些影像等等非結構化信息,我們就會(huì )通過(guò)系統對非結構化的信息可能做一些預處理,加工,把數據里面重要信息做提純,提純出來(lái)之后形成一個(gè)結構化信息,同樣保存在我們的數據倉庫里面,這樣我們的分析外延會(huì )更加廣泛。

  另外還有一類(lèi)叫流媒體信息,比如現在有很多視頻頭,傳感器,這些傳播數據是時(shí)時(shí)的不斷流動(dòng)數據,我們就不能像傳統這樣,把數據都放到數據倉庫里面再做分析,這個(gè)時(shí)效性有問(wèn)題,我們怎么在這種其他下做更時(shí)時(shí)的方式,我們就會(huì )有流數據的處理,也就是當這個(gè)數據流動(dòng)過(guò)來(lái)之后,我立刻對數據做時(shí)時(shí)的響應,做時(shí)時(shí)分析做時(shí)時(shí)決策,這樣就能夠為我們提供時(shí)時(shí)的決策,我們稱(chēng)為叫T+0的分析決策,采用這個(gè)方式。

  從我們產(chǎn)品來(lái)講,在傳統的數據庫這邊,基礎架構平臺IBM會(huì )提供一體機,因為我們知道在傳統數據倉庫里面,大家都會(huì )知道有一個(gè)數據庫,包括硬件的方式會(huì )結合起來(lái),但是這個(gè)方式會(huì )有一個(gè)問(wèn)題,我軟件硬件單獨采購,比如我要建一個(gè)T規模的數據倉,我應該選什么樣的硬件,每個(gè)硬件的配置是什么,網(wǎng)絡(luò )怎么配,存儲怎么配,以前做真的是憑經(jīng)驗的過(guò)程,現在就有很好的方式采用一體機的方式,就像我們買(mǎi)了電視拿過(guò)來(lái)就用,現在在數據倉庫這個(gè)領(lǐng)域,也有一個(gè)趨勢就是采用數據倉庫一體機的方式,也就是軟件、硬件存儲預先配置好的,預先優(yōu)化的,我們開(kāi)箱就用的,這種方式好處是效率比較高,管理簡(jiǎn)單,而且擴展性好,所以在這里面IBM會(huì )提供一個(gè)產(chǎn)品叫PDA,我們和文思海輝這邊在很多商行都做,包括北京銀行都實(shí)施了數據倉庫的一體機來(lái)做。

  另外一點(diǎn)在我們構建一個(gè)數據倉庫架構時(shí),除了在基礎平臺會(huì )分層,所以我們詳細數據區和匯總區我們可能會(huì )針對不同的業(yè)務(wù)部門(mén)建一些數據集市,針對你的部門(mén),不同的主題有很多不同的集市來(lái)做,在數據集市方面,現在有一個(gè)很大的問(wèn)題,一定要有響應速度好,我查一個(gè)東西要立刻得到響應,在這里面怎么提高數據集市的分析效率,現在在業(yè)界有一個(gè)趨勢,能不能用基于內存的,采用內式的存儲方式,高度壓縮的方式做,這樣的好處減少了IO,因為在內存里面,所以你的響應效果會(huì )非常高,在這方面IBM會(huì )推出一個(gè)產(chǎn)品BB2blue,就是基于內存的采用列式壓縮的方式,而且高度壓縮的方式,它所有的處理分析不需要解壓,完全在壓縮數據上進(jìn)行分析,這樣的好處一個(gè)效率非常高,非常非常快,另外一點(diǎn)管理起來(lái)非常簡(jiǎn)單。

  在我們來(lái)構建傳統的數據倉庫,傳統的基礎數據平臺,包括我們引入了大數據的技術(shù)擴展我們的數據基礎平臺,這里面還有很重要一點(diǎn),就是我們要考慮信息管控和治理。信息管控和治理是保證您的數據倉庫能夠提供高質(zhì)量的數據,標準的數據,這樣能對您的決策真正有意義,這里面會(huì )考慮幾個(gè)問(wèn)題,上面已經(jīng)講了,如何定義我們數據標準,如何構建我們的原數據,怎么保證您的數據是高質(zhì)量可信的數據,這樣才能保證我們真正的數據倉庫發(fā)揮作用,因為我們碰到很多客戶(hù),早就建數據倉庫了,業(yè)務(wù)員一看你的報表數據都是錯誤的,或者說(shuō)有問(wèn)題的,整個(gè)系統沒(méi)法使用,他會(huì )反過(guò)來(lái),又做新的治理,由做數據質(zhì)量,所以在我們構建倉庫時(shí),數據質(zhì)量一定要放在很重要的議事日程之上,來(lái)保證您分析的數據是可信數據,包括我們在銀行里面大家都建了一些客戶(hù)的主數據管理。

  還有一點(diǎn)當我們構建數據倉庫之后,大量的數據包括很核心的數據都放在一塊,這時(shí)候數據安全是很重要的,如何保證大量的敏感數據不被非法篡改,非法閱讀,這時(shí)候有幾種方式來(lái)做,一個(gè)我們要做很好的審計制度,也就是說(shuō)能夠記住誰(shuí)什么時(shí)候對這些數據做了訪(fǎng)問(wèn),同時(shí)我們還要做預先的試防,也就是定一些規則,當一些特權用戶(hù)要對我們的敏感數據做訪(fǎng)問(wèn)時(shí),立刻告警,立刻阻斷他,這樣能保證整個(gè)在基礎數據平臺的安全性得到保證,這個(gè)怎么考慮IBM下一個(gè)產(chǎn)品會(huì )做,易夠數據庫,數據審計以及安全的解決方案。

  另外一點(diǎn)當我們數據倉庫構建越來(lái)越多之后,數據量越來(lái)越大,我們考慮到數據生命周期的管理,因為大家知道建數倉的時(shí)候,都要用高端存儲,這樣成本會(huì )很高,同樣在數據倉庫的數據也是有很多的,我們雖然經(jīng)常做趨勢分析,但可能五年前,十年前的數據其實(shí)是很少接觸到的,但是為了監管考慮我們要保持,這時(shí)候我是不是采用生命周期的管理,因為數據是有溫度的,我也就把這些數據按不同溫度采用多級存儲的方式,我經(jīng)常訪(fǎng)問(wèn)的數據放在高效盤(pán)上,甚至在SSB上,不太訪(fǎng)問(wèn)的可能放在光盤(pán)部上,這樣我能夠通過(guò)層級方式存儲,減少數據倉庫存儲的成本,同時(shí)我需要的數據都能夠很好的得到,這個(gè)怎么來(lái)做在IBM來(lái)講,在整個(gè)大數據分析的基礎架構里面,有兩種實(shí)現方式,對傳統的結構化數據有一個(gè)產(chǎn)品(01:45:33英),由這個(gè)產(chǎn)品幫助我們做數據倉庫,數據庫生命周期的管理。

  另外一點(diǎn)剛才賈總也談到光大銀行做了歷史數據查詢(xún),因為我們傳統經(jīng)常訪(fǎng)問(wèn)的數據還是放在數據倉庫里面,剛才講了不太查的數據,我們稱(chēng)為比較冷的數據,我把它放在hadoop平臺上,因為hadoop的本質(zhì)是用廉價(jià)服務(wù)器組成的集群,它會(huì )通過(guò)運算得到高效的處理,這樣它的存儲很低,查詢(xún)效率也是可以接受,所以我們采用另一種方式,來(lái)把這些冷的數據放到Hadoop平臺,實(shí)現歷史數據的查詢(xún),這兩種方式都可以幫助我們做生命周期的管理。

  我們在大數據分析的平臺里面,除了我們要使用結構化信息,一體機,我們的數據集市,可能通過(guò)BB2blue來(lái)幫助您加速數據集市的查詢(xún)效率,在傳統的大數據這邊,IBM的hadoop的解決方案是一個(gè)企業(yè)級的hadoop,它是基于標準的技術(shù),但是增加了一個(gè)企業(yè)的特性,這后面會(huì )具體來(lái)講,也就是說(shuō)真正的為我們企業(yè)使用hadoop平臺,因為hadoop是一個(gè)標本,它只是考慮它的功能,不考慮企業(yè)的特性,真正流的處理IBM有一個(gè)產(chǎn)品,就是能夠針對流的數據時(shí)時(shí)的處理,時(shí)時(shí)的響應,幫助我們做時(shí)時(shí)的決策。

  通過(guò)數據的基礎平臺包括我們的信息管控平臺,之后我們就可以為我們的客戶(hù)實(shí)現很多東西,大家可能很清楚了,我們基于這些數據平臺做分析應用,典型的可以做一些數據分析,數據報表,數據多維查詢(xún),IBM有一個(gè)產(chǎn)品就是做報表多維查詢(xún)的工具,同時(shí)IBM還有一個(gè)產(chǎn)品(01:48:21英)這個(gè)是專(zhuān)門(mén)針對財務(wù)績(jì)效分析的工具,叫TMY。同時(shí)我可能還要預測一下未來(lái)會(huì )發(fā)生什么,就剛才提到的IBM提供的一些數據挖掘的工具,IBM有一個(gè)產(chǎn)品叫SPSS,來(lái)做一些挖掘分析,另外我們還可以通過(guò)這個(gè)來(lái)看當前正在發(fā)生的事情,對當前的數據做探索,通過(guò)我可以了解當前發(fā)生了什么,為什么發(fā)生了什么,可能會(huì )發(fā)生什么之后,我就可以做一些行動(dòng),基于它做一些決策,這里IBM有一個(gè)產(chǎn)品(英)來(lái)做一些決策分析的工具,通過(guò)大數據的基礎平臺,我們就可以幫助您構建數據基礎平臺,幫助我們實(shí)現信息管控與治理。

  同樣這套解決方案在硬件部屬上,我們不僅可以使用傳統的用硬件服務(wù)器的方式部屬,現在也很難要做云,不管是共有云,私有云,當然我們行內一般建私有云,這里面都會(huì )到云的平臺上,這是整個(gè)IBM大數據分析的基礎架構。

  下面我們具體看一下在架構里面的一些產(chǎn)品,因為我講的主要是產(chǎn)品,剛才講的是一些理念,具體的落地怎么實(shí)現,可能要通過(guò)一些產(chǎn)品和解決方案來(lái)做,我們來(lái)看IBM的產(chǎn)品怎么來(lái)做,首先剛才講了大數據分析平臺里面,很重要一點(diǎn)要做數據整合,來(lái)保證您數據質(zhì)量,這個(gè)IBM有一個(gè)產(chǎn)品一個(gè)企業(yè)級的整合平臺,通過(guò)它能夠幫助我們提供統一的一致的可信的數據,怎么來(lái)實(shí)現?從IBM的信息整合平臺,就能考慮是這樣,如果我們要對一個(gè)信息做整合,我們首先要對您的各個(gè)異構數據源越了解,您之后的轉換才能夠有的放矢,也就是說(shuō)在整個(gè)過(guò)程中,怎么保證我們數據源的質(zhì)量,在信息服務(wù)家族里面有一個(gè)產(chǎn)品叫(01:51:07英),這個(gè)來(lái)做什么?它可以了解您數據源是什么樣的,都采用了什么樣的數據庫,采用了什么樣的表,什么樣的字段,字段的定義是什么,字段值的分布是什么,通過(guò)它字段和字段之間的關(guān)系是什么,通過(guò)它你可以知道數據源的質(zhì)量,比如我們在行里面經(jīng)常做一些客戶(hù)的營(yíng)銷(xiāo),客戶(hù)營(yíng)銷(xiāo)其實(shí)用一個(gè)很重要的技術(shù)手段,就是數據挖掘的客戶(hù)分群。大家知道男孩子女孩子消費習慣不一樣,一定要把信件放到模型里做數據因子,但是我通過(guò)IA來(lái)看數據源時(shí),一看性別99%都是男的,數據源的質(zhì)量可能有問(wèn)題,可能原來(lái)系統里面性別缺的是男的,可能錄入的時(shí)候大家都沒(méi)錄入,回車(chē)了,都變成男的,您要把這個(gè)作為您這個(gè)系統的模型輸因子,您建的模型肯定問(wèn)題,這樣我們之后做相應的處理,可能做一些加全處理,或者性別不納入這個(gè)模型輸入因子,這樣才有的放矢。

  另外一點(diǎn)我們來(lái)看地址大量都是空的,之后做轉換很多復雜處理其實(shí)沒(méi)意義,您對您的數據源越了解,對數據整合才更有效,通過(guò)IA我們可以來(lái)看數據源的質(zhì)量情況,同時(shí)IBM有一個(gè)產(chǎn)品幫助我們定義您的業(yè)務(wù)源數據,剛才已經(jīng)講了,數據標準是在信息管控里面很重要的一點(diǎn),標準我們會(huì )有一個(gè)軟科學(xué),您做咨詢(xún)等等來(lái)梳理您的業(yè)務(wù)指標,之后怎么做IT管理,其實(shí)IBM的BG就是做業(yè)務(wù)指標的管理工作,把業(yè)務(wù)指標存入到這里面,對它做更好的操作,可以他您的業(yè)務(wù)指標和真正的業(yè)務(wù)數據連到一塊,這個(gè)叫BG,通過(guò)可以更好的做您的業(yè)務(wù)源數據的管理。

  之后采用Data Studio這個(gè)工具做數據質(zhì)量的處理工作,通過(guò)它能夠保證我們數據是完整統一的數據,在這里面還有一個(gè)工具幫助我們實(shí)現數據的質(zhì)量保證,因為大家知道做的時(shí)候都是對一些數據做處理,但是有很多東西是基于一段話(huà),一個(gè)文字的東西就很難處理,比如我叫張光業(yè),我是IBM的公司,比如我銷(xiāo)售額是什么,另一個(gè)系統來(lái)也是張光業(yè)你看的是兩個(gè)人,但是你說(shuō)是一個(gè)人,當我系統里有大量數據之后,如何通過(guò)電子方式自動(dòng)識別您的信息,自動(dòng)對這些數據做去重,保證你的數據是可信的數據,這怎么做,其實(shí)IBM有一個(gè)產(chǎn)品來(lái)幫你完成。另外一點(diǎn)通過(guò)生產(chǎn)過(guò)程中的持續的適量監控,也就是當一上線(xiàn)之后,比如我通過(guò)報表來(lái)看數據時(shí),比如我們的營(yíng)業(yè)額都是千萬(wàn)級,突然有一天數據一看上億了,肯定有問(wèn)題,業(yè)務(wù)員知道你之后,你怎么解決,其實(shí)我們也不知道,通過(guò)這個(gè)就可以做數據分析,能知道報表這個(gè)字段是從數據源的哪個(gè)表,哪個(gè)字段經(jīng)過(guò)哪些處理得到的,第二當這個(gè)報表有問(wèn)題時(shí),就可以檢查問(wèn)題。

  同時(shí)可以做影響分析,當我們數據源某一個(gè)字段變化了,已經(jīng)上線(xiàn)了,跟他影響的相應的流程要做相應的變化,你相應的報表做變化,通過(guò)這個(gè)影響可以知道,我要改變數據源的某一個(gè)指標,相應的流程怎么改,包括報表的定義怎么改,這樣保證我們生產(chǎn)過(guò)程中的整個(gè)數據質(zhì)量是有保證,這個(gè)是IBM的信息整合平臺,同時(shí)在數據的抽取過(guò)程中我們還有一個(gè)產(chǎn)品叫CDC,它是復制工具,能夠識別您的生產(chǎn)系統變化信息,能夠及時(shí)的做數據通過(guò),保證數據倉庫的數據是時(shí)時(shí)的分析,就是CDC完成。

  另外一塊是在基礎平臺里面很重要的做存儲,做數據倉庫,剛才講了在這里面,其實(shí)業(yè)界有一個(gè)趨勢用數據倉庫的一體機,從IBM來(lái)講提供PDA,專(zhuān)門(mén)針對數據分析的一體機,它的好處是通過(guò)提供的并行處理的架構,完成了CRIC的結構,同時(shí)采用了業(yè)界非常重要的技術(shù)PGA,它把數據的處理都變成電子信號,這樣的好處是效率非常高,大家看這是一個(gè)原理,我們所有的數據都存在磁盤(pán)上,磁盤(pán)上FBTA的板,這是PDA的專(zhuān)利技術(shù),它通過(guò)背板來(lái)連接到您的磁盤(pán),比如我們做一個(gè)操作時(shí),當發(fā)查詢(xún)之后,數據通過(guò)背板直接變成電子信號,通過(guò)FBTA板,首先對它做解壓,之后做一些條件,同時(shí)我們還有一些條件再做一些過(guò)濾,大家看到這樣得到數據是非常小的,所有這個(gè)過(guò)程都是轉變了電子信號,通過(guò)硬件板極實(shí)現,所以效率會(huì )非常高。

  首先在數據這邊,基于電子信號方式做,所以效率很高,這也是PDA為什么在一體機領(lǐng)域里面比較強的技術(shù),另外一點(diǎn)雖然很高效,大家管理非常簡(jiǎn)單,不像傳統數據庫,我們要建表空間,建索引,作為數據庫不需要,它非常簡(jiǎn)單我們就建一個(gè)桌面,裝載數據就可以用,效率高,管理簡(jiǎn)單。另外應用開(kāi)發(fā)上線(xiàn)簡(jiǎn)單,我們就是一個(gè)數據,所以非常簡(jiǎn)單,很快速,這也是我們和文思一起在很多的客戶(hù),特別在商業(yè)銀行里面有很多案例都是這么做的,北京銀行,大商所等等都是通過(guò)野鴿PAD做,另外一個(gè)剛才講的在我們數據集市領(lǐng)域,我們?yōu)榱颂岣邤祿械牟樵?xún)效率,往往都會(huì )采用居列式存儲內存的方式進(jìn)行訪(fǎng)問(wèn),IBM的產(chǎn)品就是blue,它的核心是基于內存列式的存儲,而且壓縮的方式做,它很重要的一點(diǎn),處理都是基于壓縮數據進(jìn)行操作,不需要解壓,所以效率非常高,而且可以充分利用CPU的并行機制實(shí)現并行處理,使我們的產(chǎn)品效率很高,但是同樣它也是這樣,使用起來(lái)也非常簡(jiǎn)單,跟PAD一樣,我不需要建你的表空間,不需要建索引,不需要對數據庫做統計,不需要做調優(yōu),也是直接一個(gè)數據就可以,也是速度非常高,我們統計基本采用Blue,比傳統的數據集市方式至少有十倍,到二十五倍的性能提高,壓縮比也會(huì )節省十到二十倍,所以效率非常高,存儲成本很低,使用起來(lái)非常簡(jiǎn)單。

  另外一塊除了我們現在要針對傳統的高價(jià)值的數據做分析,我們現在要擁抱,在大數據時(shí)代擴展數據外延,擁抱新的一些數據格式,新的數據格式從IBM來(lái)講,主要是兩種,一種結構化半結構化的靜態(tài)數據,也就是把它存到hadoop里面進(jìn)行并行分析,IBM這邊會(huì )這個(gè)之后,就是對企業(yè)級hadoop,另外針對流的處理IBM有一個(gè)steeams,首先來(lái)看big in side(02:01:13英),這是基本的組成部分,在這里面黃色都是阿帕奇的標志,big in side是基于標準的阿帕奇,藍色都是IBM的拓展,基于傳統的標準的阿帕奇的hadoop的技術(shù),同時(shí)提供了一些企業(yè)科技,包括統一的管理安全工作附帶的優(yōu)化和各個(gè)傳統結構化、非結構化數據的連接,包括一些高級處理引擎,統一開(kāi)發(fā)管理界面,通過(guò)可視化的工具可以為我們企業(yè)提供更好的hadoop的應用支撐。

  在hadoop里面也有很重要的趨勢,因為以前大家用hadoop的時(shí)候,大家可能用JAVA來(lái)寫(xiě),因為大家傳統的跟數據領(lǐng)域相關(guān)的人員對C語(yǔ)言比較熟悉,所以在Hadoop里面,大家經(jīng)常用MapReduce集做數據處理,但是它不支持子查詢(xún),多維處理函數都不支持,它的處理是有限制的,IBM提供一個(gè)hadoop,我們叫InfoSphere BigInsights它是完全基于標準做的,它會(huì )支持子查詢(xún),多維函數查詢(xún)都會(huì )這樣做,在這個(gè)領(lǐng)域里面,其實(shí)采用hadoop來(lái)做會(huì )有一些問(wèn)題,因為它用JAVA做時(shí),它開(kāi)銷(xiāo)比較高,單運行會(huì )很高,所以對大數據處理現在有一個(gè)趨勢,就是采用傳統的SQ并行引擎來(lái)代替它做的,因為SQ的引擎都是用C++來(lái)寫(xiě)的,包括資源調度會(huì )很好,所以現在有一個(gè)趨勢,而IBM的3.0也是采用SQ的LPP的引擎代理了一些來(lái)做,這樣并行處理算法會(huì )更好,效率會(huì )很高,資源調度更好,子查詢(xún)多維查詢(xún)都會(huì )支持,這是它的體系結構我們就不講了。

  另外一點(diǎn)IBM企業(yè)級的InfoSphere BigInsights和傳統的阿帕奇的區別,要注意整合,因為hadoop是作為我們傳統數據的擴展,一定要把你的Hadoop和傳統的數據倉庫有機的聯(lián)系起來(lái),有效的整合,這怎么做,在IBM里有很大的優(yōu)勢,包括我們的3.0它可以采用數據聯(lián)邦的技術(shù),可以把你的hadoop數據和我們的傳統數據庫包括數據倉庫技術(shù)做很好的整合,這樣真正能夠在大數據時(shí)代同時(shí)整合我們的結構化數據以及非結構化外延的數據得到更好更全面的分析,其實(shí)這才是有用的,這在標準的阿帕奇里面其實(shí)很少有這方面的東西,這是一個(gè)它的優(yōu)勢。

  另外一點(diǎn)3.0也很快和傳統的HV做測試,基本有40倍的提高,在新的IBM里面除了具備統一企業(yè)特性之外,從信息整合,集成管理方面都有很大的提高。另外一個(gè)因為大數據它的本質(zhì)是做分析,所以在這里面會(huì )有高級文本分析引擎,對飛碟化的文本分析,會(huì )通過(guò)高級文本分析引擎可以轉變成一個(gè)結構化數據和傳統的數據倉庫數據結合起來(lái)做更好的分析,這個(gè)典型例子,銀行里面對客戶(hù)的360深度分析,現在各個(gè)行都建了微博,把一些社交媒體的數據和我們傳統數據結合起來(lái),這種方式做本質(zhì)上輿情分析就用了高級文本分析引擎完成。

  另外就是流的處理,IBM有一個(gè)產(chǎn)品streams,它能夠對攝象頭、傳感器時(shí)時(shí)流動(dòng)的傳輸數據之后,我對這個(gè)數據做時(shí)時(shí)的響應,從而得到時(shí)時(shí)決策,能達到T+0的洞察力,就是通過(guò)這個(gè)產(chǎn)品實(shí)現。這個(gè)產(chǎn)品本身也是一個(gè)并行處理架構,它能夠只關(guān)注您的數據流處理的流程,不需要管理后面怎么部屬,它會(huì )根據您的硬件情況自動(dòng)的擴充,是一個(gè)很好的流處理的基礎平臺,同時(shí)我還可以和一些數據挖掘工具結合起來(lái),比如我們在銀行里面要做風(fēng)險,我們來(lái)看風(fēng)險防范,就可以通過(guò)采用這個(gè)技術(shù),對您的七大防范做時(shí)時(shí)的檢測和時(shí)時(shí)響應,這就和SPS這種數據挖掘模型結合起來(lái)。

  另外一點(diǎn)剛才講了,整個(gè)構建數據基礎平臺之外,很重要一點(diǎn)要考慮信息管控,信息管控里面重要的就是數據安全,怎么提供可信的安全的數據,這是大數據時(shí)代重要的東西,安全怎么做,剛才講了IBM有一個(gè)產(chǎn)品易構數據庫的審計安全管理的工具,大家看就是這個(gè)產(chǎn)品,它會(huì )針對您的所有易構的數據源包括現在的hadoop數據,對這些易構數據進(jìn)行識別,來(lái)收集對這些數據所有的訪(fǎng)問(wèn),所有訪(fǎng)問(wèn)流程都能做記載,對事后審計,同時(shí)還可以定一些規則,定完規則之后,當對敏感數據做訪(fǎng)問(wèn)時(shí),能夠時(shí)時(shí)的告警,甚至時(shí)時(shí)阻斷,這樣保證我們整個(gè)企業(yè)數據環(huán)境的安全性。

  采用這種方式的好處是采用盤(pán)務(wù)的方式,也就是說(shuō)您用了之后,對您所有的數據庫應用不需要做任何修改,只要把這個(gè)盒子插上去,安裝上就可以進(jìn)行收集,進(jìn)行時(shí)時(shí)的數據安全監控,所以使用起來(lái)非常方便,也不需要打開(kāi)所有數據庫的日志,所以對性能沒(méi)有任何影響。

  再一個(gè)就是數據的生命周期管理,剛才講了,如果對結構化數據IBM有一個(gè)產(chǎn)品來(lái)做生命周期的管理,但是很大的好處和我們自己實(shí)現做傳統的生命周期管理有很大的區別,它可以采用在數據抽取時(shí),是采用面向業(yè)務(wù)對象來(lái)做,也就是說(shuō)您的數據之間是有關(guān)聯(lián)的,它抽取時(shí)不是按照一個(gè)數據點(diǎn)做,而是數據之間的關(guān)聯(lián)關(guān)系統一的業(yè)務(wù)對象來(lái)做,同時(shí)當你抽下來(lái)存儲時(shí),是采用了自己的格式,這樣做的好處可能你從這個(gè)數據庫歸檔的數據,以后可能恢復到BB2上都是可以的,因為它有自己內部的格式,因為做的一紙歸檔,比如您實(shí)際來(lái)做的,可能十年之后實(shí)際軟件早沒(méi)有了,您數據要恢復沒(méi)法恢復,采用這種方式,因為它存儲的是自己內部格式,從實(shí)際歸檔一下數據,以后可能在20G照樣可以恢復,所以是它很大的好處,同時(shí)可以采用層級存儲的方式。

  它還可以做隱私管理,這個(gè)不講了,通過(guò)IBM大數據分析平臺,我們就可以借助一個(gè)平臺之上,構建針對各個(gè)行業(yè)的數據分析,包括對它的分析,這個(gè)后面我們會(huì )講銀行的應用知道,就講構建分析。同樣IBM來(lái)做是提供基礎的平臺,我們要和合作伙伴比如文思海輝一起幫助您實(shí)現行里面的一些數據分析應用,數據治理,基本上我就今天講這么多,大家有什么問(wèn)題沒(méi)有,謝謝。

錯誤報告  分享到:
山东省| 文山县| 金门县| 陇川县| 仙居县| 汾西县| 旬邑县| 嫩江县| 石门县| 绿春县| 嵊州市| 景东| 宁波市| 宽城| 灵石县| 苗栗市| 灵川县| 仁布县| 志丹县| 井研县| 平罗县| 昌都县| 榕江县| 大化| 句容市| 会同县| 靖州| 澎湖县| 喜德县| 宁武县| 中卫市| 印江| 都江堰市| 乐都县| 全州县| 临海市| 尖扎县| 万年县| 蕉岭县| 清涧县| 陇西县|