2018年7月6日易谷網(wǎng)絡(luò)“智能服務(wù)與營銷新方案發(fā)布會”在北京泛太平洋酒店順利舉辦。智鈾科技創(chuàng)始人兼CEO夏粉發(fā)表了題為《基于AutoML的智能推薦技術(shù)》的主題演講。
夏粉:大家好!剛才提到“機(jī)器學(xué)習(xí)”,現(xiàn)在它是熱門詞,當(dāng)我讀博士時它是冷門詞。我的導(dǎo)師是機(jī)器學(xué)習(xí)的泰斗王玨老師,他說“你來我這,將來找不到工作,畢業(yè)之后只能當(dāng)老師。”誰也沒想到,人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)都起來了,機(jī)器學(xué)習(xí)變得熱門了。

我今天的主題是“基于AutoML的智能推薦技術(shù)。”
我是機(jī)器學(xué)習(xí)的博士,有15年以上的機(jī)器學(xué)習(xí)的經(jīng)驗,15年前機(jī)器學(xué)習(xí)是個冷門。我在學(xué)術(shù)界機(jī)器學(xué)習(xí)頂級會議和雜志上都有文章。現(xiàn)在是智鈾科技創(chuàng)始人,專注于自動化機(jī)器學(xué)習(xí),就是AutoML技術(shù)產(chǎn)品和研發(fā)。曾經(jīng)在百度任資深科學(xué)家,在百度期間負(fù)責(zé)百度的超大規(guī)模機(jī)器學(xué)習(xí)團(tuán)隊,在百度期間我曾經(jīng)研發(fā)了一個大規(guī)模稀疏架構(gòu)自動化機(jī)器學(xué)習(xí)平臺Pulsar,覆蓋百度90%的業(yè)務(wù)線,包括百度核心業(yè)務(wù)線鳳巢、金融、糯米等,在百度內(nèi)部機(jī)器學(xué)習(xí)平臺中用戶數(shù)排名第一。
推薦在日常生活中各個場景都會發(fā)生,我們吃飯時希望美團(tuán)推薦餐廳,在上網(wǎng)時希望推薦合適的廣告,在信息資訊時希望給我們推薦合適的資訊,在打電話給客服時希望它推薦給我們滿意的客服。
這是百度搜索的圖,當(dāng)用戶在百度搜索引擎查詢“北京美食”時,這個頁面下方有一個廣告塊,我們希望廣告塊推薦用戶滿意的廣告。對一個系統(tǒng)來說,這件事情是怎么發(fā)生的?當(dāng)用戶輸入檢索詞時,怎么檢索系統(tǒng)?從它的廣告庫里成千上億的廣告庫里挑選廣告。廣告怎么挑選?它有很多維度,比如廣告滿意度、相關(guān)性、點擊率等,這個系統(tǒng)會綜合各因素,從上億的廣告里找出一個用戶滿意的廣告。
從我剛才的描述中發(fā)現(xiàn),所謂的推薦一定要有一個目標(biāo),這個目標(biāo)可能是你的相關(guān)性,也可能是點擊率,也可能是相關(guān)性和滿意度的綜合體,但無論如何,這里面核心的問題是需要對場景做精準(zhǔn)預(yù)測。以點擊率為例,希望用戶輸入查詢時,推薦一個點擊率比較高的廣告。點擊率這件事情是什么?實際上是一個模型,模型是描述系統(tǒng)里各因素的相關(guān)關(guān)系,什么叫相關(guān)關(guān)系?以這個為例,我們希望用戶在這個場景下點擊這個廣告的可能性,這就是相關(guān)性。推薦系統(tǒng)的核心是建模,我們希望找到這樣的規(guī)律,找到這個規(guī)律的過程,就是建模的過程。建模就是學(xué)習(xí)概念。
對比使用推薦技術(shù)和不使用推薦技術(shù)的廣告系統(tǒng),當(dāng)使用推薦技術(shù)以后,發(fā)現(xiàn)在廣告投放的相關(guān)性上得到提升,在點擊率上得到提升,在收入上也同樣得到提升。原因是什么?因為我們建了模型,通過模型能夠預(yù)測出來將來發(fā)生的事情,可以通過預(yù)測來達(dá)到想要的目標(biāo),比如我通過預(yù)測廣告點擊率比較高,所以把點擊率高的廣告挑出來,自然推薦時就會得到很高的點擊率。
推薦技術(shù)的核心問題是建模問題,但建模問題并不是一個嶄新問題。自從人類文明以來,人類就一直在建模。當(dāng)我們沒有計算機(jī)的時候、沒有數(shù)據(jù)的時候,怎么建模?用人腦建模。人腦會看到很多事情,比如有一句話叫“閱人無數(shù)”,指的是看的人多了以后,會根據(jù)言談舉止推測人的性格,這個建模過程是在腦袋里面的。第一代建模技術(shù)主要表現(xiàn)在人工規(guī)則、表現(xiàn)在統(tǒng)計方法。
當(dāng)計算機(jī)出現(xiàn)的時候,進(jìn)入第二代建模方法“機(jī)器學(xué)習(xí)”,它克服了人工建模的犯錯,而且當(dāng)因素變多時候,人很難發(fā)現(xiàn)因素間的關(guān)系,這時需要借鑒機(jī)器學(xué)習(xí)的方法。當(dāng)數(shù)據(jù)量有限時,這時建的模型是小規(guī)模模型。當(dāng)深度學(xué)習(xí)、互聯(lián)網(wǎng)企業(yè)加入時,互聯(lián)網(wǎng)擁有更大算力、更多數(shù)據(jù),這時建模會容納更多數(shù)據(jù),計算更精確,是第三代建模技術(shù)。大家感知比較多的是第三代建模技術(shù),因為第二代是學(xué)術(shù)研究場景,到第三代時大家真的感到人工智能時代來臨了。
第二代和第三代建模解決的是什么問題?第一代計算機(jī)會得到模型,但它并不能得到好的模型。如果你想建一個好的模型,這時還差一個事情,各個企業(yè)轉(zhuǎn)人工智能得招人、招科學(xué)家,直接用第二代、第三代技術(shù)不能得到好的模型,如果得到好的模型必須聘請科學(xué)家,好科學(xué)家的數(shù)量是稀缺,嚴(yán)重制約企業(yè)在人工智能的發(fā)展。如果希望人工智能造福各行各業(yè),我們一定要降低門檻,去除對科學(xué)家的依賴。這時第四代建模技術(shù)是AutoML技術(shù)來臨,主要的特點是去除對科學(xué)家的依賴,不光用計算機(jī)建一個模型,而且是建一個好的模型。
這是機(jī)器學(xué)習(xí)的建模流程,原始數(shù)據(jù)特征抽取之后進(jìn)行數(shù)據(jù)預(yù)處理,然后對特征預(yù)處理-選擇算法-調(diào)參-評估-預(yù)測-得到模型。通過不斷的迭代才得到不斷的模型,有好的模型才能夠得到預(yù)測。舉個類似的場景,以做飯為例,數(shù)據(jù)相當(dāng)于原料,比如米、蔬菜,第一步數(shù)據(jù)預(yù)處理,對蔬菜進(jìn)行清洗,把不干凈的、老的地方去除,第二步特征預(yù)處理,類似于菜的搭配,選擇算法可以理解為選擇鍋,高壓鍋或者平底鍋,調(diào)參可以理解為掌握火候,這個菜好不好吃可以進(jìn)行口味的調(diào)整,如果菜不好吃就要重復(fù)這個流程。五星級的廚師是反復(fù)進(jìn)行這個流程。
機(jī)器學(xué)習(xí)建模場景在一開始是沒有經(jīng)驗的,我從自動化所加入百度時,對廣告建模也沒有經(jīng)驗,我是怎么有經(jīng)驗的?重復(fù)這個過程。這個過程中非常痛苦的,我?guī)?0個人重復(fù)了3年這個事情。但做的過程中給百度帶來了巨大的利益,每次調(diào)參,模型變得越來越精準(zhǔn),收益在逐漸調(diào)整。
對于早期的互聯(lián)網(wǎng)公司經(jīng)歷了第三代的學(xué)習(xí)技術(shù),大量依賴于科學(xué)家和人力成本。有沒有辦法去除這個依賴?有!目前的解決方案是AutoML,把中間重復(fù)的、繁雜的調(diào)參過程去除,類似于做飯去除了對廚師的依賴,我們給大家一個智能鍋,把原料放進(jìn)去以后,它自動給你加工出一個菜,而且保證這個菜的口味非常好吃,這就是AutoML技術(shù)要研究的內(nèi)容。
目前學(xué)術(shù)界和工業(yè)界都對此展開研究,在國際機(jī)器學(xué)習(xí)大會以及神經(jīng)處理大會NIPS上,最近幾年把它列為專門的議題在討論。同樣,在企業(yè)界,谷歌于2017年已經(jīng)把AutoML技術(shù)作為它的云戰(zhàn)略重要組成部分。谷歌為了提升它云的占有率,提出了三大戰(zhàn)略,其中就有AutoML技術(shù),主要是為了搶占云的市場,AutoML技術(shù)是對一個企業(yè)非常重要的技術(shù)。
這個技術(shù)很熱,但也困難,是機(jī)器學(xué)習(xí)領(lǐng)域最前沿的技術(shù)之一。它為什么困難?第一,參數(shù)調(diào)節(jié)非常復(fù)雜,跟做菜一樣有很多工序,每個工序都需要調(diào)。第二,目標(biāo)函數(shù)不可導(dǎo),比如做飯選擇平底鍋還是高壓鍋,這個鍋的選擇是突變過程,不能對菜的好壞形成連續(xù)影響,這帶來了優(yōu)化挑戰(zhàn)。第三,評估代價特別大,以做飯為例,需要把所有的東西做完以后才知道好吃不好吃,中間過程沒有辦法評估。
技術(shù)非常難,但正因為困難,才激起機(jī)器學(xué)習(xí)專家的熱情。包括我本人也對此非常熱情,從我加入百度時,就一直在研究這套技術(shù)。這套技術(shù)的學(xué)術(shù)現(xiàn)狀是這樣的,目前一兩個主流方法,第一種方法是減少搜索代價,還以做飯為例,做一半可以確定菜好不好吃,比如菜炒焦了,后面再怎么調(diào)也不會好吃,要及時止損,減少迭代次數(shù)。第二種方法是AutoML,一個高級廚師做宮爆雞丁時覺得跟魚香肉絲相似,所以就沒必要再摸索宮爆雞丁的過程,這時用AI訓(xùn)練,比如訓(xùn)練人臉識別過程,而訓(xùn)練的過程是人工的,訓(xùn)練的過程用機(jī)器,相當(dāng)于用機(jī)器人訓(xùn)練機(jī)器人,這是AutoML的方法,及時止損和得到效率的極大提升。
智鈾科技是目前少數(shù)幾個跟谷歌一樣掌握自動化機(jī)器學(xué)習(xí)的公司之一,我們不斷對學(xué)術(shù)界現(xiàn)狀做了了解,除此之外還獨創(chuàng)很多算法。舉個例子,我們在模型算法上,建立了萬億的神經(jīng)網(wǎng)絡(luò),是目前世界最大的神經(jīng)網(wǎng)絡(luò)。在特征學(xué)習(xí)用獨特的算法,這個算法一個下午就可以相當(dāng)于用30個人調(diào)3年。我們還有參數(shù)學(xué)習(xí)方法。
對于AutoML的展望,第一代人工智能是學(xué)習(xí)分類器,讓大家感覺到人工智能來了。第二代是學(xué)習(xí)特征,能夠找出這個圖片有哪些特征表示。第三代是學(xué)習(xí)如何學(xué)習(xí),就是給了你目標(biāo)以后,希望人工智能能夠自動學(xué)習(xí)出目標(biāo)來,而不需要人工干預(yù)。第四代是學(xué)習(xí)學(xué)習(xí)什么,機(jī)器自動思考該學(xué)習(xí)什么,而不像前三代由人來指定學(xué)什么。
智鈾科技是一家年輕公司,成立一年多,公司使命是“致力于企業(yè)級自動化機(jī)器學(xué)習(xí)平臺研發(fā)”,希望通過我們的技術(shù),降低企業(yè)應(yīng)用AI門檻,為用戶提供數(shù)據(jù)分析、模型調(diào)參等一站式服務(wù),幫助企業(yè)構(gòu)建人工智能核心,實現(xiàn)AI驅(qū)動,而且這個驅(qū)動是低成本的。降低去除科學(xué)家的依賴。
我們盡管成立時間不長,但推出了小智產(chǎn)品,它擁有當(dāng)前最先進(jìn)的AutoML技術(shù)。產(chǎn)品亮點主要有:第一,自動化構(gòu)建高精度模型。第二,簡單易用,全程可視化。第三,模型快速部署發(fā)布。第四,模型準(zhǔn)確性高、速度快,達(dá)到高級科學(xué)家的水平。第五,支持海量數(shù)據(jù)建模。右邊是合作案例,包括銀行、互聯(lián)網(wǎng)金融、內(nèi)容營銷、基因等等。