首頁 > 專題 > 文思海輝-乘數(shù)據(jù)之舟-達(dá)價(jià)值彼岸 > IBM產(chǎn)品介紹（西安站）

IBM產(chǎn)品介紹（西安站）
2014-11-28 11:43:42 評論：0 點(diǎn)擊：

　　隨著中國金融市場的快速發(fā)展，互聯(lián)網(wǎng)金融對傳統(tǒng)金融行業(yè)的競爭，以及監(jiān)管力度的不斷加強(qiáng)，IT咨詢服務(wù)公司對金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng)新。如何提升金融機(jī)構(gòu)在管理、盈利、風(fēng)險(xiǎn)控等多方位的能力？如何將國際經(jīng)驗(yàn)更好的為中國市場服務(wù)？如何通過解決方案將海量數(shù)據(jù)轉(zhuǎn)化為對經(jīng)營決策有價(jià)值的信息之路？如何將客戶智能分析成果行之有效地運(yùn)用于服務(wù)渠道，并最終轉(zhuǎn)換為銷售業(yè)績？為解決中國金融機(jī)構(gòu)在發(fā)展中所面臨的新問題，文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場“乘數(shù)據(jù)之舟，達(dá)價(jià)值彼岸”系列活動(dòng)。

　　在主題為“乘數(shù)據(jù)之舟，達(dá)價(jià)值彼岸”的文思海輝商業(yè)智能解決方案系列研討會(huì)西安站現(xiàn)場，IBM大數(shù)據(jù)專家張光業(yè)做了IBM產(chǎn)品介紹。

　　以下為演講實(shí)錄：

　　各位來賓下午好，我是IBM公司軟件部的張光業(yè)。剛才賈總已經(jīng)給大家介紹了建設(shè)企業(yè)基礎(chǔ)的信息平臺以及信息管控這方面的重要性，接下來我給大家介紹如何使用IBM的軟件包括IBM的解決方案幫助您來構(gòu)建基礎(chǔ)的數(shù)據(jù)平臺，也解決數(shù)據(jù)倉庫平臺以及怎么幫我們實(shí)現(xiàn)信息管控和信息治理，也就是幫我們構(gòu)建端到端的數(shù)據(jù)分析的解決方案，一個(gè)技術(shù)一個(gè)架構(gòu)。

　　剛才已經(jīng)講了很多的，今天專門談數(shù)據(jù)，正是因?yàn)閿?shù)據(jù)現(xiàn)在已經(jīng)是我們整個(gè)企業(yè)的重要資產(chǎn)，我們?nèi)绾胃玫睦眠@些數(shù)據(jù)，特別是現(xiàn)在我們進(jìn)入了大數(shù)據(jù)時(shí)代，對數(shù)據(jù)從它的緯度來講，從外延來講有了更多的延伸，比如銀行核心的還是我們現(xiàn)在客戶的信息，帳務(wù)信息，但是我們要做擴(kuò)展，我們有很多微博信息，包括微信，社交媒體等等這些信息，旅游媒體信息，怎么來擁抱更加廣泛的數(shù)據(jù)幫助我們做更時(shí)時(shí)的決策這是對我們的要求，我們在面對大數(shù)據(jù)時(shí)代，怎么來實(shí)現(xiàn)剛才這些訴求，也就是在大數(shù)據(jù)時(shí)代，怎么來做？大家都聽過大數(shù)據(jù)，一提就是Hadoop、streams非常熱，但是一定要有自己的原則，也就是說在大數(shù)據(jù)時(shí)代，如何發(fā)揮作用首先一點(diǎn)我們還要堅(jiān)持我們原來的現(xiàn)在已有的結(jié)構(gòu)化數(shù)據(jù)，我們業(yè)務(wù)系統(tǒng)，數(shù)據(jù)倉的數(shù)據(jù)，還是最重要的源泉，同時(shí)我們要拓展我們思考的外延，也就是要納入一些更清新的東西，比如提到的一些媒體信息，包括日志信息，圖形圖象傳感器信息，幫助我們決策做到更精準(zhǔn)，更時(shí)時(shí)。

　　基于這些訴求，從IBM來講，也是提供了很好的大數(shù)據(jù)管理以及分析基礎(chǔ)的平臺，通過大數(shù)據(jù)分析技術(shù)平臺架構(gòu)，我們現(xiàn)在做應(yīng)用一定要做架構(gòu)信息，一定要有穩(wěn)定的架構(gòu)，再這個(gè)架構(gòu)上來構(gòu)建我們的應(yīng)用，才能保證我們的系統(tǒng)長久的發(fā)展。從IBM來講也是提供了大數(shù)據(jù)分析基礎(chǔ)的平臺，這個(gè)基礎(chǔ)平臺從架構(gòu)來講，基本上從幾個(gè)方面考慮，這邊是我們原來的核心系統(tǒng)，一些業(yè)務(wù)系統(tǒng)，包括新興的數(shù)據(jù)，比如社交媒體，位置信息，流的信息，怎么進(jìn)行實(shí)現(xiàn)呢？首先我們會(huì)通過信息整合的平臺來幫助把分布在各個(gè)業(yè)務(wù)系統(tǒng)里面的結(jié)構(gòu)化信息，包括新興的非結(jié)構(gòu)化信息，通過信息整合平臺來存儲到數(shù)據(jù)倉庫，數(shù)據(jù)倉庫包括ODS系統(tǒng)，包括數(shù)據(jù)集市幫助我們做信息分析，以做出更好的決策。

　　因?yàn)榇髷?shù)據(jù)時(shí)代，我們的數(shù)據(jù)隔聲越來越多，現(xiàn)在我們有很多包括社交媒體信息，包括一些影像等等非結(jié)構(gòu)化信息，我們就會(huì)通過系統(tǒng)對非結(jié)構(gòu)化的信息可能做一些預(yù)處理，加工，把數(shù)據(jù)里面重要信息做提純，提純出來之后形成一個(gè)結(jié)構(gòu)化信息，同樣保存在我們的數(shù)據(jù)倉庫里面，這樣我們的分析外延會(huì)更加廣泛。

　　另外還有一類叫流媒體信息，比如現(xiàn)在有很多視頻頭，傳感器，這些傳播數(shù)據(jù)是時(shí)時(shí)的不斷流動(dòng)數(shù)據(jù)，我們就不能像傳統(tǒng)這樣，把數(shù)據(jù)都放到數(shù)據(jù)倉庫里面再做分析，這個(gè)時(shí)效性有問題，我們怎么在這種其他下做更時(shí)時(shí)的方式，我們就會(huì)有流數(shù)據(jù)的處理，也就是當(dāng)這個(gè)數(shù)據(jù)流動(dòng)過來之后，我立刻對數(shù)據(jù)做時(shí)時(shí)的響應(yīng)，做時(shí)時(shí)分析做時(shí)時(shí)決策，這樣就能夠?yàn)槲覀兲峁⿻r(shí)時(shí)的決策，我們稱為叫T+0的分析決策，采用這個(gè)方式。

　　從我們產(chǎn)品來講，在傳統(tǒng)的數(shù)據(jù)庫這邊，基礎(chǔ)架構(gòu)平臺IBM會(huì)提供一體機(jī)，因?yàn)槲覀冎涝趥鹘y(tǒng)數(shù)據(jù)倉庫里面，大家都會(huì)知道有一個(gè)數(shù)據(jù)庫，包括硬件的方式會(huì)結(jié)合起來，但是這個(gè)方式會(huì)有一個(gè)問題，我軟件硬件單獨(dú)采購，比如我要建一個(gè)T規(guī)模的數(shù)據(jù)倉，我應(yīng)該選什么樣的硬件，每個(gè)硬件的配置是什么，網(wǎng)絡(luò)怎么配，存儲怎么配，以前做真的是憑經(jīng)驗(yàn)的過程，現(xiàn)在就有很好的方式采用一體機(jī)的方式，就像我們買了電視拿過來就用，現(xiàn)在在數(shù)據(jù)倉庫這個(gè)領(lǐng)域，也有一個(gè)趨勢就是采用數(shù)據(jù)倉庫一體機(jī)的方式，也就是軟件、硬件存儲預(yù)先配置好的，預(yù)先優(yōu)化的，我們開箱就用的，這種方式好處是效率比較高，管理簡單，而且擴(kuò)展性好，所以在這里面IBM會(huì)提供一個(gè)產(chǎn)品叫PDA，我們和文思海輝這邊在很多商行都做，包括北京銀行都實(shí)施了數(shù)據(jù)倉庫的一體機(jī)來做。

　　另外一點(diǎn)在我們構(gòu)建一個(gè)數(shù)據(jù)倉庫架構(gòu)時(shí)，除了在基礎(chǔ)平臺會(huì)分層，所以我們詳細(xì)數(shù)據(jù)區(qū)和匯總區(qū)我們可能會(huì)針對不同的業(yè)務(wù)部門建一些數(shù)據(jù)集市，針對你的部門，不同的主題有很多不同的集市來做，在數(shù)據(jù)集市方面，現(xiàn)在有一個(gè)很大的問題，一定要有響應(yīng)速度好，我查一個(gè)東西要立刻得到響應(yīng)，在這里面怎么提高數(shù)據(jù)集市的分析效率，現(xiàn)在在業(yè)界有一個(gè)趨勢，能不能用基于內(nèi)存的，采用內(nèi)式的存儲方式，高度壓縮的方式做，這樣的好處減少了IO，因?yàn)樵趦?nèi)存里面，所以你的響應(yīng)效果會(huì)非常高，在這方面IBM會(huì)推出一個(gè)產(chǎn)品BB2blue，就是基于內(nèi)存的采用列式壓縮的方式，而且高度壓縮的方式，它所有的處理分析不需要解壓，完全在壓縮數(shù)據(jù)上進(jìn)行分析，這樣的好處一個(gè)效率非常高，非常非常快，另外一點(diǎn)管理起來非常簡單。

　　在我們來構(gòu)建傳統(tǒng)的數(shù)據(jù)倉庫，傳統(tǒng)的基礎(chǔ)數(shù)據(jù)平臺，包括我們引入了大數(shù)據(jù)的技術(shù)擴(kuò)展我們的數(shù)據(jù)基礎(chǔ)平臺，這里面還有很重要一點(diǎn)，就是我們要考慮信息管控和治理。信息管控和治理是保證您的數(shù)據(jù)倉庫能夠提供高質(zhì)量的數(shù)據(jù)，標(biāo)準(zhǔn)的數(shù)據(jù)，這樣能對您的決策真正有意義，這里面會(huì)考慮幾個(gè)問題，上面已經(jīng)講了，如何定義我們數(shù)據(jù)標(biāo)準(zhǔn)，如何構(gòu)建我們的原數(shù)據(jù)，怎么保證您的數(shù)據(jù)是高質(zhì)量可信的數(shù)據(jù)，這樣才能保證我們真正的數(shù)據(jù)倉庫發(fā)揮作用，因?yàn)槲覀兣龅胶芏嗫蛻簦缇徒〝?shù)據(jù)倉庫了，業(yè)務(wù)員一看你的報(bào)表數(shù)據(jù)都是錯(cuò)誤的，或者說有問題的，整個(gè)系統(tǒng)沒法使用，他會(huì)反過來，又做新的治理，由做數(shù)據(jù)質(zhì)量，所以在我們構(gòu)建倉庫時(shí)，數(shù)據(jù)質(zhì)量一定要放在很重要的議事日程之上，來保證您分析的數(shù)據(jù)是可信數(shù)據(jù)，包括我們在銀行里面大家都建了一些客戶的主數(shù)據(jù)管理。

　　還有一點(diǎn)當(dāng)我們構(gòu)建數(shù)據(jù)倉庫之后，大量的數(shù)據(jù)包括很核心的數(shù)據(jù)都放在一塊，這時(shí)候數(shù)據(jù)安全是很重要的，如何保證大量的敏感數(shù)據(jù)不被非法篡改，非法閱讀，這時(shí)候有幾種方式來做，一個(gè)我們要做很好的審計(jì)制度，也就是說能夠記住誰什么時(shí)候?qū)︖@些數(shù)據(jù)做了訪問，同時(shí)我們還要做預(yù)先的試防，也就是定一些規(guī)則，當(dāng)一些特權(quán)用戶要對我們的敏感數(shù)據(jù)做訪問時(shí)，立刻告警，立刻阻斷他，這樣能保證整個(gè)在基礎(chǔ)數(shù)據(jù)平臺的安全性得到保證，這個(gè)怎么考慮IBM下一個(gè)產(chǎn)品會(huì)做，易夠數(shù)據(jù)庫，數(shù)據(jù)審計(jì)以及安全的解決方案。

　　另外一點(diǎn)當(dāng)我們數(shù)據(jù)倉庫構(gòu)建越來越多之后，數(shù)據(jù)量越來越大，我們考慮到數(shù)據(jù)生命周期的管理，因?yàn)榇蠹抑澜〝?shù)倉的時(shí)候，都要用高端存儲，這樣成本會(huì)很高，同樣在數(shù)據(jù)倉庫的數(shù)據(jù)也是有很多的，我們雖然經(jīng)常做趨勢分析，但可能五年前，十年前的數(shù)據(jù)其實(shí)是很少接觸到的，但是為了監(jiān)管考慮我們要保持，這時(shí)候我是不是采用生命周期的管理，因?yàn)閿?shù)據(jù)是有溫度的，我也就把這些數(shù)據(jù)按不同溫度采用多級存儲的方式，我經(jīng)常訪問的數(shù)據(jù)放在高效盤上，甚至在SSB上，不太訪問的可能放在光盤部上，這樣我能夠通過層級方式存儲，減少數(shù)據(jù)倉庫存儲的成本，同時(shí)我需要的數(shù)據(jù)都能夠很好的得到，這個(gè)怎么來做在IBM來講，在整個(gè)大數(shù)據(jù)分析的基礎(chǔ)架構(gòu)里面，有兩種實(shí)現(xiàn)方式，對傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)有一個(gè)產(chǎn)品（01：45：33英），由這個(gè)產(chǎn)品幫助我們做數(shù)據(jù)倉庫，數(shù)據(jù)庫生命周期的管理。

　　另外一點(diǎn)剛才賈總也談到光大銀行做了歷史數(shù)據(jù)查詢，因?yàn)槲覀儌鹘y(tǒng)經(jīng)常訪問的數(shù)據(jù)還是放在數(shù)據(jù)倉庫里面，剛才講了不太查的數(shù)據(jù)，我們稱為比較冷的數(shù)據(jù)，我把它放在hadoop平臺上，因?yàn)閔adoop的本質(zhì)是用廉價(jià)服務(wù)器組成的集群，它會(huì)通過運(yùn)算得到高效的處理，這樣它的存儲很低，查詢效率也是可以接受，所以我們采用另一種方式，來把這些冷的數(shù)據(jù)放到Hadoop平臺，實(shí)現(xiàn)歷史數(shù)據(jù)的查詢，這兩種方式都可以幫助我們做生命周期的管理。

　　我們在大數(shù)據(jù)分析的平臺里面，除了我們要使用結(jié)構(gòu)化信息，一體機(jī)，我們的數(shù)據(jù)集市，可能通過BB2blue來幫助您加速數(shù)據(jù)集市的查詢效率，在傳統(tǒng)的大數(shù)據(jù)這邊，IBM的hadoop的解決方案是一個(gè)企業(yè)級的hadoop，它是基于標(biāo)準(zhǔn)的技術(shù)，但是增加了一個(gè)企業(yè)的特性，這后面會(huì)具體來講，也就是說真正的為我們企業(yè)使用hadoop平臺，因?yàn)閔adoop是一個(gè)標(biāo)本，它只是考慮它的功能，不考慮企業(yè)的特性，真正流的處理IBM有一個(gè)產(chǎn)品，就是能夠針對流的數(shù)據(jù)時(shí)時(shí)的處理，時(shí)時(shí)的響應(yīng)，幫助我們做時(shí)時(shí)的決策。

　　通過數(shù)據(jù)的基礎(chǔ)平臺包括我們的信息管控平臺，之后我們就可以為我們的客戶實(shí)現(xiàn)很多東西，大家可能很清楚了，我們基于這些數(shù)據(jù)平臺做分析應(yīng)用，典型的可以做一些數(shù)據(jù)分析，數(shù)據(jù)報(bào)表，數(shù)據(jù)多維查詢，IBM有一個(gè)產(chǎn)品就是做報(bào)表多維查詢的工具，同時(shí)IBM還有一個(gè)產(chǎn)品（01：48：21英）這個(gè)是專門針對財(cái)務(wù)績效分析的工具，叫TMY。同時(shí)我可能還要預(yù)測一下未來會(huì)發(fā)生什么，就剛才提到的IBM提供的一些數(shù)據(jù)挖掘的工具，IBM有一個(gè)產(chǎn)品叫SPSS，來做一些挖掘分析，另外我們還可以通過這個(gè)來看當(dāng)前正在發(fā)生的事情，對當(dāng)前的數(shù)據(jù)做探索，通過我可以了解當(dāng)前發(fā)生了什么，為什么發(fā)生了什么，可能會(huì)發(fā)生什么之后，我就可以做一些行動(dòng)，基于它做一些決策，這里IBM有一個(gè)產(chǎn)品（英）來做一些決策分析的工具，通過大數(shù)據(jù)的基礎(chǔ)平臺，我們就可以幫助您構(gòu)建數(shù)據(jù)基礎(chǔ)平臺，幫助我們實(shí)現(xiàn)信息管控與治理。

　　同樣這套解決方案在硬件部屬上，我們不僅可以使用傳統(tǒng)的用硬件服務(wù)器的方式部屬，現(xiàn)在也很難要做云，不管是共有云，私有云，當(dāng)然我們行內(nèi)一般建私有云，這里面都會(huì)到云的平臺上，這是整個(gè)IBM大數(shù)據(jù)分析的基礎(chǔ)架構(gòu)。

　　下面我們具體看一下在架構(gòu)里面的一些產(chǎn)品，因?yàn)槲抑v的主要是產(chǎn)品，剛才講的是一些理念，具體的落地怎么實(shí)現(xiàn)，可能要通過一些產(chǎn)品和解決方案來做，我們來看IBM的產(chǎn)品怎么來做，首先剛才講了大數(shù)據(jù)分析平臺里面，很重要一點(diǎn)要做數(shù)據(jù)整合，來保證您數(shù)據(jù)質(zhì)量，這個(gè)IBM有一個(gè)產(chǎn)品一個(gè)企業(yè)級的整合平臺，通過它能夠幫助我們提供統(tǒng)一的一致的可信的數(shù)據(jù)，怎么來實(shí)現(xiàn)？從IBM的信息整合平臺，就能考慮是這樣，如果我們要對一個(gè)信息做整合，我們首先要對您的各個(gè)異構(gòu)數(shù)據(jù)源越了解，您之后的轉(zhuǎn)換才能夠有的放矢，也就是說在整個(gè)過程中，怎么保證我們數(shù)據(jù)源的質(zhì)量，在信息服務(wù)家族里面有一個(gè)產(chǎn)品叫（01：51：07英），這個(gè)來做什么？它可以了解您數(shù)據(jù)源是什么樣的，都采用了什么樣的數(shù)據(jù)庫，采用了什么樣的表，什么樣的字段，字段的定義是什么，字段值的分布是什么，通過它字段和字段之間的關(guān)系是什么，通過它你可以知道數(shù)據(jù)源的質(zhì)量，比如我們在行里面經(jīng)常做一些客戶的營銷，客戶營銷其實(shí)用一個(gè)很重要的技術(shù)手段，就是數(shù)據(jù)挖掘的客戶分群。大家知道男孩子女孩子消費(fèi)習(xí)慣不一樣，一定要把信件放到模型里做數(shù)據(jù)因子，但是我通過IA來看數(shù)據(jù)源時(shí)，一看性別99%都是男的，數(shù)據(jù)源的質(zhì)量可能有問題，可能原來系統(tǒng)里面性別缺的是男的，可能錄入的時(shí)候大家都沒錄入，回車了，都變成男的，您要把這個(gè)作為您這個(gè)系統(tǒng)的模型輸因子，您建的模型肯定問題，這樣我們之后做相應(yīng)的處理，可能做一些加全處理，或者性別不納入這個(gè)模型輸入因子，這樣才有的放矢。

　　另外一點(diǎn)我們來看地址大量都是空的，之后做轉(zhuǎn)換很多復(fù)雜處理其實(shí)沒意義，您對您的數(shù)據(jù)源越了解，對數(shù)據(jù)整合才更有效，通過IA我們可以來看數(shù)據(jù)源的質(zhì)量情況，同時(shí)IBM有一個(gè)產(chǎn)品幫助我們定義您的業(yè)務(wù)源數(shù)據(jù)，剛才已經(jīng)講了，數(shù)據(jù)標(biāo)準(zhǔn)是在信息管控里面很重要的一點(diǎn)，標(biāo)準(zhǔn)我們會(huì)有一個(gè)軟科學(xué)，您做咨詢等等來梳理您的業(yè)務(wù)指標(biāo)，之后怎么做IT管理，其實(shí)IBM的BG就是做業(yè)務(wù)指標(biāo)的管理工作，把業(yè)務(wù)指標(biāo)存入到這里面，對它做更好的操作，可以他您的業(yè)務(wù)指標(biāo)和真正的業(yè)務(wù)數(shù)據(jù)連到一塊，這個(gè)叫BG，通過可以更好的做您的業(yè)務(wù)源數(shù)據(jù)的管理。

　　之后采用Data Studio這個(gè)工具做數(shù)據(jù)質(zhì)量的處理工作，通過它能夠保證我們數(shù)據(jù)是完整統(tǒng)一的數(shù)據(jù)，在這里面還有一個(gè)工具幫助我們實(shí)現(xiàn)數(shù)據(jù)的質(zhì)量保證，因?yàn)榇蠹抑雷龅臅r(shí)候都是對一些數(shù)據(jù)做處理，但是有很多東西是基于一段話，一個(gè)文字的東西就很難處理，比如我叫張光業(yè)，我是IBM的公司，比如我銷售額是什么，另一個(gè)系統(tǒng)來也是張光業(yè)你看的是兩個(gè)人，但是你說是一個(gè)人，當(dāng)我系統(tǒng)里有大量數(shù)據(jù)之后，如何通過電子方式自動(dòng)識別您的信息，自動(dòng)對這些數(shù)據(jù)做去重，保證你的數(shù)據(jù)是可信的數(shù)據(jù)，這怎么做，其實(shí)IBM有一個(gè)產(chǎn)品來幫你完成。另外一點(diǎn)通過生產(chǎn)過程中的持續(xù)的適量監(jiān)控，也就是當(dāng)一上線之后，比如我通過報(bào)表來看數(shù)據(jù)時(shí)，比如我們的營業(yè)額都是千萬級，突然有一天數(shù)據(jù)一看上億了，肯定有問題，業(yè)務(wù)員知道你之后，你怎么解決，其實(shí)我們也不知道，通過這個(gè)就可以做數(shù)據(jù)分析，能知道報(bào)表這個(gè)字段是從數(shù)據(jù)源的哪個(gè)表，哪個(gè)字段經(jīng)過哪些處理得到的，第二當(dāng)這個(gè)報(bào)表有問題時(shí)，就可以檢查問題。

　　同時(shí)可以做影響分析，當(dāng)我們數(shù)據(jù)源某一個(gè)字段變化了，已經(jīng)上線了，跟他影響的相應(yīng)的流程要做相應(yīng)的變化，你相應(yīng)的報(bào)表做變化，通過這個(gè)影響可以知道，我要改變數(shù)據(jù)源的某一個(gè)指標(biāo)，相應(yīng)的流程怎么改，包括報(bào)表的定義怎么改，這樣保證我們生產(chǎn)過程中的整個(gè)數(shù)據(jù)質(zhì)量是有保證，這個(gè)是IBM的信息整合平臺，同時(shí)在數(shù)據(jù)的抽取過程中我們還有一個(gè)產(chǎn)品叫CDC，它是復(fù)制工具，能夠識別您的生產(chǎn)系統(tǒng)變化信息，能夠及時(shí)的做數(shù)據(jù)通過，保證數(shù)據(jù)倉庫的數(shù)據(jù)是時(shí)時(shí)的分析，就是CDC完成。

　　另外一塊是在基礎(chǔ)平臺里面很重要的做存儲，做數(shù)據(jù)倉庫，剛才講了在這里面，其實(shí)業(yè)界有一個(gè)趨勢用數(shù)據(jù)倉庫的一體機(jī)，從IBM來講提供PDA，專門針對數(shù)據(jù)分析的一體機(jī)，它的好處是通過提供的并行處理的架構(gòu)，完成了CRIC的結(jié)構(gòu)，同時(shí)采用了業(yè)界非常重要的技術(shù)PGA，它把數(shù)據(jù)的處理都變成電子信號，這樣的好處是效率非常高，大家看這是一個(gè)原理，我們所有的數(shù)據(jù)都存在磁盤上，磁盤上FBTA的板，這是PDA的專利技術(shù)，它通過背板來連接到您的磁盤，比如我們做一個(gè)操作時(shí)，當(dāng)發(fā)查詢之后，數(shù)據(jù)通過背板直接變成電子信號，通過FBTA板，首先對它做解壓，之后做一些條件，同時(shí)我們還有一些條件再做一些過濾，大家看到這樣得到數(shù)據(jù)是非常小的，所有這個(gè)過程都是轉(zhuǎn)變了電子信號，通過硬件板極實(shí)現(xiàn)，所以效率會(huì)非常高。

　　首先在數(shù)據(jù)這邊，基于電子信號方式做，所以效率很高，這也是PDA為什么在一體機(jī)領(lǐng)域里面比較強(qiáng)的技術(shù)，另外一點(diǎn)雖然很高效，大家管理非常簡單，不像傳統(tǒng)數(shù)據(jù)庫，我們要建表空間，建索引，作為數(shù)據(jù)庫不需要，它非常簡單我們就建一個(gè)桌面，裝載數(shù)據(jù)就可以用，效率高，管理簡單。另外應(yīng)用開發(fā)上線簡單，我們就是一個(gè)數(shù)據(jù)，所以非常簡單，很快速，這也是我們和文思一起在很多的客戶，特別在商業(yè)銀行里面有很多案例都是這么做的，北京銀行，大商所等等都是通過野鴿PAD做，另外一個(gè)剛才講的在我們數(shù)據(jù)集市領(lǐng)域，我們?yōu)榱颂岣邤?shù)據(jù)集市的查詢效率，往往都會(huì)采用居列式存儲內(nèi)存的方式進(jìn)行訪問，IBM的產(chǎn)品就是blue，它的核心是基于內(nèi)存列式的存儲，而且壓縮的方式做，它很重要的一點(diǎn)，處理都是基于壓縮數(shù)據(jù)進(jìn)行操作，不需要解壓，所以效率非常高，而且可以充分利用CPU的并行機(jī)制實(shí)現(xiàn)并行處理，使我們的產(chǎn)品效率很高，但是同樣它也是這樣，使用起來也非常簡單，跟PAD一樣，我不需要建你的表空間，不需要建索引，不需要對數(shù)據(jù)庫做統(tǒng)計(jì)，不需要做調(diào)優(yōu)，也是直接一個(gè)數(shù)據(jù)就可以，也是速度非常高，我們統(tǒng)計(jì)基本采用Blue，比傳統(tǒng)的數(shù)據(jù)集市方式至少有十倍，到二十五倍的性能提高，壓縮比也會(huì)節(jié)省十到二十倍，所以效率非常高，存儲成本很低，使用起來非常簡單。

　　另外一塊除了我們現(xiàn)在要針對傳統(tǒng)的高價(jià)值的數(shù)據(jù)做分析，我們現(xiàn)在要擁抱，在大數(shù)據(jù)時(shí)代擴(kuò)展數(shù)據(jù)外延，擁抱新的一些數(shù)據(jù)格式，新的數(shù)據(jù)格式從IBM來講，主要是兩種，一種結(jié)構(gòu)化半結(jié)構(gòu)化的靜態(tài)數(shù)據(jù)，也就是把它存到hadoop里面進(jìn)行并行分析，IBM這邊會(huì)這個(gè)之后，就是對企業(yè)級hadoop，另外針對流的處理IBM有一個(gè)steeams，首先來看big in side（02：01：13英），這是基本的組成部分，在這里面黃色都是阿帕奇的標(biāo)志，big in side是基于標(biāo)準(zhǔn)的阿帕奇，藍(lán)色都是IBM的拓展，基于傳統(tǒng)的標(biāo)準(zhǔn)的阿帕奇的hadoop的技術(shù)，同時(shí)提供了一些企業(yè)科技，包括統(tǒng)一的管理安全工作附帶的優(yōu)化和各個(gè)傳統(tǒng)結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的連接，包括一些高級處理引擎，統(tǒng)一開發(fā)管理界面，通過可視化的工具可以為我們企業(yè)提供更好的hadoop的應(yīng)用支撐。

　　在hadoop里面也有很重要的趨勢，因?yàn)橐郧按蠹矣胔adoop的時(shí)候，大家可能用JAVA來寫，因?yàn)榇蠹覀鹘y(tǒng)的跟數(shù)據(jù)領(lǐng)域相關(guān)的人員對C語言比較熟悉，所以在Hadoop里面，大家經(jīng)常用MapReduce集做數(shù)據(jù)處理，但是它不支持子查詢，多維處理函數(shù)都不支持，它的處理是有限制的，IBM提供一個(gè)hadoop，我們叫InfoSphere BigInsights它是完全基于標(biāo)準(zhǔn)做的，它會(huì)支持子查詢，多維函數(shù)查詢都會(huì)這樣做，在這個(gè)領(lǐng)域里面，其實(shí)采用hadoop來做會(huì)有一些問題，因?yàn)樗肑AVA做時(shí)，它開銷比較高，單運(yùn)行會(huì)很高，所以對大數(shù)據(jù)處理現(xiàn)在有一個(gè)趨勢，就是采用傳統(tǒng)的SQ并行引擎來代替它做的，因?yàn)镾Q的引擎都是用C++來寫的，包括資源調(diào)度會(huì)很好，所以現(xiàn)在有一個(gè)趨勢，而IBM的3.0也是采用SQ的LPP的引擎代理了一些來做，這樣并行處理算法會(huì)更好，效率會(huì)很高，資源調(diào)度更好，子查詢多維查詢都會(huì)支持，這是它的體系結(jié)構(gòu)我們就不講了。

　　另外一點(diǎn)IBM企業(yè)級的InfoSphere BigInsights和傳統(tǒng)的阿帕奇的區(qū)別，要注意整合，因?yàn)閔adoop是作為我們傳統(tǒng)數(shù)據(jù)的擴(kuò)展，一定要把你的Hadoop和傳統(tǒng)的數(shù)據(jù)倉庫有機(jī)的聯(lián)系起來，有效的整合，這怎么做，在IBM里有很大的優(yōu)勢，包括我們的3.0它可以采用數(shù)據(jù)聯(lián)邦的技術(shù)，可以把你的hadoop數(shù)據(jù)和我們的傳統(tǒng)數(shù)據(jù)庫包括數(shù)據(jù)倉庫技術(shù)做很好的整合，這樣真正能夠在大數(shù)據(jù)時(shí)代同時(shí)整合我們的結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化外延的數(shù)據(jù)得到更好更全面的分析，其實(shí)這才是有用的，這在標(biāo)準(zhǔn)的阿帕奇里面其實(shí)很少有這方面的東西，這是一個(gè)它的優(yōu)勢。

　　另外一點(diǎn)3.0也很快和傳統(tǒng)的HV做測試，基本有40倍的提高，在新的IBM里面除了具備統(tǒng)一企業(yè)特性之外，從信息整合，集成管理方面都有很大的提高。另外一個(gè)因?yàn)榇髷?shù)據(jù)它的本質(zhì)是做分析，所以在這里面會(huì)有高級文本分析引擎，對飛碟化的文本分析，會(huì)通過高級文本分析引擎可以轉(zhuǎn)變成一個(gè)結(jié)構(gòu)化數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)倉庫數(shù)據(jù)結(jié)合起來做更好的分析，這個(gè)典型例子，銀行里面對客戶的360深度分析，現(xiàn)在各個(gè)行都建了微博，把一些社交媒體的數(shù)據(jù)和我們傳統(tǒng)數(shù)據(jù)結(jié)合起來，這種方式做本質(zhì)上輿情分析就用了高級文本分析引擎完成。

　　另外就是流的處理，IBM有一個(gè)產(chǎn)品streams，它能夠?qū)z象頭、傳感器時(shí)時(shí)流動(dòng)的傳輸數(shù)據(jù)之后，我對這個(gè)數(shù)據(jù)做時(shí)時(shí)的響應(yīng)，從而得到時(shí)時(shí)決策，能達(dá)到T+0的洞察力，就是通過這個(gè)產(chǎn)品實(shí)現(xiàn)。這個(gè)產(chǎn)品本身也是一個(gè)并行處理架構(gòu)，它能夠只關(guān)注您的數(shù)據(jù)流處理的流程，不需要管理后面怎么部屬，它會(huì)根據(jù)您的硬件情況自動(dòng)的擴(kuò)充，是一個(gè)很好的流處理的基礎(chǔ)平臺，同時(shí)我還可以和一些數(shù)據(jù)挖掘工具結(jié)合起來，比如我們在銀行里面要做風(fēng)險(xiǎn)，我們來看風(fēng)險(xiǎn)防范，就可以通過采用這個(gè)技術(shù)，對您的七大防范做時(shí)時(shí)的檢測和時(shí)時(shí)響應(yīng)，這就和SPS這種數(shù)據(jù)挖掘模型結(jié)合起來。

　　另外一點(diǎn)剛才講了，整個(gè)構(gòu)建數(shù)據(jù)基礎(chǔ)平臺之外，很重要一點(diǎn)要考慮信息管控，信息管控里面重要的就是數(shù)據(jù)安全，怎么提供可信的安全的數(shù)據(jù)，這是大數(shù)據(jù)時(shí)代重要的東西，安全怎么做，剛才講了IBM有一個(gè)產(chǎn)品易構(gòu)數(shù)據(jù)庫的審計(jì)安全管理的工具，大家看就是這個(gè)產(chǎn)品，它會(huì)針對您的所有易構(gòu)的數(shù)據(jù)源包括現(xiàn)在的hadoop數(shù)據(jù)，對這些易構(gòu)數(shù)據(jù)進(jìn)行識別，來收集對這些數(shù)據(jù)所有的訪問，所有訪問流程都能做記載，對事后審計(jì)，同時(shí)還可以定一些規(guī)則，定完規(guī)則之后，當(dāng)對敏感數(shù)據(jù)做訪問時(shí)，能夠時(shí)時(shí)的告警，甚至?xí)r時(shí)阻斷，這樣保證我們整個(gè)企業(yè)數(shù)據(jù)環(huán)境的安全性。

　　采用這種方式的好處是采用盤務(wù)的方式，也就是說您用了之后，對您所有的數(shù)據(jù)庫應(yīng)用不需要做任何修改，只要把這個(gè)盒子插上去，安裝上就可以進(jìn)行收集，進(jìn)行時(shí)時(shí)的數(shù)據(jù)安全監(jiān)控，所以使用起來非常方便，也不需要打開所有數(shù)據(jù)庫的日志，所以對性能沒有任何影響。

　　再一個(gè)就是數(shù)據(jù)的生命周期管理，剛才講了，如果對結(jié)構(gòu)化數(shù)據(jù)IBM有一個(gè)產(chǎn)品來做生命周期的管理，但是很大的好處和我們自己實(shí)現(xiàn)做傳統(tǒng)的生命周期管理有很大的區(qū)別，它可以采用在數(shù)據(jù)抽取時(shí)，是采用面向業(yè)務(wù)對象來做，也就是說您的數(shù)據(jù)之間是有關(guān)聯(lián)的，它抽取時(shí)不是按照一個(gè)數(shù)據(jù)點(diǎn)做，而是數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系統(tǒng)一的業(yè)務(wù)對象來做，同時(shí)當(dāng)你抽下來存儲時(shí)，是采用了自己的格式，這樣做的好處可能你從這個(gè)數(shù)據(jù)庫歸檔的數(shù)據(jù)，以后可能恢復(fù)到BB2上都是可以的，因?yàn)樗凶约簝?nèi)部的格式，因?yàn)樽龅囊患垰w檔，比如您實(shí)際來做的，可能十年之后實(shí)際軟件早沒有了，您數(shù)據(jù)要恢復(fù)沒法恢復(fù)，采用這種方式，因?yàn)樗鎯Φ氖亲约簝?nèi)部格式，從實(shí)際歸檔一下數(shù)據(jù)，以后可能在20G照樣可以恢復(fù)，所以是它很大的好處，同時(shí)可以采用層級存儲的方式。

　　它還可以做隱私管理，這個(gè)不講了，通過IBM大數(shù)據(jù)分析平臺，我們就可以借助一個(gè)平臺之上，構(gòu)建針對各個(gè)行業(yè)的數(shù)據(jù)分析，包括對它的分析，這個(gè)后面我們會(huì)講銀行的應(yīng)用知道，就講構(gòu)建分析。同樣IBM來做是提供基礎(chǔ)的平臺，我們要和合作伙伴比如文思海輝一起幫助您實(shí)現(xiàn)行里面的一些數(shù)據(jù)分析應(yīng)用，數(shù)據(jù)治理，基本上我就今天講這么多，大家有什么問題沒有，謝謝。

錯(cuò)誤報(bào)告分享到：

97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

IBM產(chǎn)品介紹（西安站）
2014-11-28 11:43:42 評論：0 點(diǎn)擊：

評論排行更多>>

相關(guān)信息

97成人免费视频,97视频免费公开成人福利,免费视频99,99婷婷,国产伊人久久,亚洲视频欧美,国产精品福利久久

IBM產(chǎn)品介紹（西安站） 2014-11-28 11:43:42 評論：0 點(diǎn)擊：

評論排行更多>>

相關(guān)信息

IBM產(chǎn)品介紹（西安站）
2014-11-28 11:43:42 評論：0 點(diǎn)擊：