標(biāo)題: 微軟研究院人工智能首席科學(xué)家鄧力:人工智能的成功在于將多種理論方法整合成一個... [打印本頁]
作者: 51黑專家 時間: 2016-4-21 22:01
標(biāo)題: 微軟研究院人工智能首席科學(xué)家鄧力:人工智能的成功在于將多種理論方法整合成一個...
機器之心原創(chuàng)
作者:趙云峰
鄧力,微軟研究院人工智能首席科學(xué)家,美國 IEEE 電氣和電子工程師協(xié)會院士。2015年,鄧力憑借在深度學(xué)習(xí)與自動語音識別方向做出的杰出貢獻(xiàn),榮獲 IEEE 技術(shù)成就獎。鄧力首次提出并解決將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到大規(guī)模語言識別中,這一實踐顯著提高了機器對語音的識別率,極大推動了人機交互領(lǐng)域的發(fā)展與進(jìn)步。
在阿爾法公社舉辦的「AI 領(lǐng)域跨越技術(shù)/產(chǎn)業(yè)/投資」及他在 IEEE-ICASSP 得獎之后的聚會上,機器之心有幸對鄧力研究員進(jìn)行了一次深度專訪。鄧力介紹了自己和微軟研究院在做的關(guān)于人工智能的數(shù)項研究,回顧了自己在人工智能和語音識別領(lǐng)域的研究歷程,并深入分析了人工智能領(lǐng)域的研究現(xiàn)狀和未來發(fā)展, 針對無監(jiān)督學(xué)習(xí)等人工智能難題提出了自己的研究思路和解決方法。相信鄧力的精彩分享將會給人工智能從業(yè)者帶來巨大收獲,其對人工智能的深入思考和研究理念也會給大家?guī)韺氋F的靈感和啟發(fā)。
微軟研究院人工智能首席科學(xué)家鄧力
一、目前所做研究:人工智能算法、大規(guī)模商業(yè)應(yīng)用以及各類人工智能方法的整合
很多實際問題不是非黑即白的,而是有很多中間狀態(tài),我們在做一些比較大型的研究,將很多層神經(jīng)網(wǎng)絡(luò)(包括時空上聯(lián)合的深層)與其他方法結(jié)合起來去應(yīng)對這些不確定性。
機器之心:您能否介紹一下目前在微軟研究院做的人工智能方面的研究,您在語音識別領(lǐng)域獲得了巨大成功,除此之外還在做其他方面的研究嗎?
鄧力:總體來說,人工智能的各項研究我和我在研究院的團隊都在做。首先,語音識別和語言模型我做了很多年,圖像描述(Image Captioning)和有關(guān)多媒態(tài)近年來也在深入研究。 圖像描述就是給出一個圖像,機器可以寫出語法標(biāo)準(zhǔn)的句子來描述它,而且相當(dāng)準(zhǔn)。我的一支團隊去年用了一個類似于「圖靈測試」的方法進(jìn)行測試,結(jié)果有32%的情況大家分不出哪些是機器自動寫的,谷歌同類系統(tǒng)的結(jié)果是31%,和我們差不多,人類是67%,這個技術(shù)在若干年后可能會達(dá)到人類水平。
微軟研究院的「圖像描述(Image Captioning)」,來源:鄧力在 IEEE-ICASSP 演講用的 PPT 和微軟美國研究院 CVPR-2015 論文「From Captions to Visual Concepts and Back」。
其次,我們現(xiàn)在做算法方面的研究比較多,包括語音識別和自然語言理解算法、增強學(xué)習(xí)算法等,以及如何將增強學(xué)習(xí)和其他機器學(xué)習(xí)方法整合在一起;如何將生成性深度學(xué)習(xí)和無監(jiān)督學(xué)習(xí)進(jìn)行融合, 等等。
第三是涉及人工智能在商業(yè)方面大規(guī)模實際應(yīng)用。我們在研究具體問題要用什么樣的深度學(xué)習(xí)和人工智能方法來解決并怎樣采用最有效的方式。
而最重要的研究方向,是如何將大數(shù)據(jù)、深度學(xué)習(xí)以及人工智能各種方法整合在一起,使得機器學(xué)習(xí)和人工智能更加有效,而且對數(shù)據(jù)的要求也不能大到現(xiàn)實應(yīng)用場景提供不了的地步。
總之,不管是方法研究還是應(yīng)用研究,我們都是在做一些比較大型的和前沿性的研究,比如如何將很多層神經(jīng)網(wǎng)絡(luò)與其他方法結(jié)合起來去應(yīng)對解析性(explanability)以及應(yīng)對各種不確定性(uncertinty),因為很多實際問題不是非黑即白的,而是有很多中間狀態(tài),如何將這種概念與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,人工智能在這方面的研究還做的比較少。但現(xiàn)實世界中其實有很多的不穩(wěn)定性和不確定性,如何在這種不確定的情況下做出最優(yōu)決策?這就需要將深度學(xué)習(xí)其他方法整合在一起,然后才能做出適合真實世界的各類人工智能應(yīng)用,包括語音、圖像、自然語言、翻譯,商業(yè)數(shù)據(jù)分析和 insight distillation 等。
機器之心:長短時記憶模型(LSTM)在研究中是否發(fā)揮了很大作用?
鄧力:是的,我們是在使用這個方法,但我認(rèn)為目前的長短時記憶模型還不夠,它實際上還是個短時模型,用比較簡單和非嚴(yán)謹(jǐn)?shù)姆椒ò选付虝r」(short term)慢慢加長,但加長一段時間之后通常不夠有效,所以還需要其他更嚴(yán)謹(jǐn)?shù)姆椒ǎㄓ洃浘W(wǎng)絡(luò)(Memory Network),神經(jīng)圖靈機(Neural Turing Machine)等。這些都是很有效的方法,我們目前也在研究比這些更進(jìn)一步的方法。
機器之心:您平時會思考一些人工智能哲學(xué)方面的問題嗎?比如說機器意識之類的。
鄧力:我覺得機器意識離我們太遠(yuǎn)了。我與其想那些,還不如多花些時間在深度學(xué)習(xí)算法和架構(gòu)研究上,剛剛提到的無監(jiān)督深度學(xué)習(xí)就值得我花大量時間去研究了。
二、個人的人工智能研究歷程以及與 Geoffrey Hinton 的合作
這是當(dāng)時我和 Hinton 合作研究的一部分內(nèi)容,把隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來,并取得了比較好的初步表現(xiàn)。
機器之心:您本科是學(xué)神經(jīng)科學(xué),后來是如何進(jìn)入到人工智能領(lǐng)域的?能否介紹一下您和 Geoffrey Hinton 合作過程嗎?
鄧力:我在中科大本科學(xué)習(xí)神經(jīng)科學(xué)和物理學(xué),后來到美國研究聽覺神經(jīng)系統(tǒng)與其計算模型。1985 年底還在做博士論文的時候,我用物理模型和神經(jīng)模型來做聽覺模擬,但當(dāng)時的神經(jīng)網(wǎng)絡(luò)算的太慢。當(dāng)時我也嘗試過把生物模型的特征提取出來丟到隱馬爾科夫模型里,結(jié)果很不理想,因為它們不是成熟的能夠相匹配的系統(tǒng)。后來我發(fā)現(xiàn)純統(tǒng)計方法更有用,從 80 年代中末期到深度學(xué)習(xí)出來之前,我做了很多研究,包括計算人工神經(jīng)網(wǎng)絡(luò)。但到了 90 年中末之后貝葉斯統(tǒng)計模型更加流行。
1993-1994 年左右還在加拿大滑鐵盧大學(xué)當(dāng)教授的時候,我和我的一位博士生合作了一篇非常漂亮的論文,當(dāng)把線性的項加到非線性的項之后,可以增強神經(jīng)網(wǎng)絡(luò)的記憶能力。并且我做了很多數(shù)學(xué)上比較嚴(yán)謹(jǐn)?shù)姆治鰹楹斡洃浤芰梢栽鰪姟D菚r電腦的計算能力不夠,模型做的很簡單,但這是一套完整的系統(tǒng),但當(dāng)把這個結(jié)果真正用在語音識別上時,卻還是沒有大大超過隱馬爾科夫模型的方法。
那時,我為這個博士生論文答辯找的 External Examiner 就是 Geoffrey Hinton,他過來后看到我們的研究就說神經(jīng)網(wǎng)絡(luò)真是太難了。但這個博士生還是拿到了博士學(xué)位。因為這次的研究結(jié)果,我就很長之后不做神經(jīng)網(wǎng)絡(luò)研究了,開始完全轉(zhuǎn)向貝葉斯統(tǒng)計方法和生成模型 (Generative Models)。
現(xiàn)在大家因為深度學(xué)習(xí)對 Hinton 和神經(jīng)網(wǎng)絡(luò)比較關(guān)注,但實際上他的很多方法也是基于生成模型,比如說深度信念網(wǎng)絡(luò)(DBN),它并不像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),而是一種從上到下的生成模型。最頂上是兩層雙向(從上到下和從下到上)的生成模型,然后完全從上到下生成數(shù)據(jù)。最底層代表了數(shù)據(jù)向量 (data vectors)。
之后我在微軟研究語音識別。在有效的深層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法發(fā)明之前,我用貝葉斯網(wǎng)絡(luò)方法把隱馬爾科夫模型(頂層)和 人類語音生成模型相結(jié)合并設(shè)計了很多層次。多層次是必須的,因為目的是要把重要的物理現(xiàn)象模擬出來。隱馬爾科夫模型只是模擬了對大腦對聲音的編碼這個行為,但整個過程中還包括肌肉運動控制、口腔內(nèi)聲道運動等環(huán)節(jié),最后通過聲學(xué)轉(zhuǎn)化才能變成語音,這就需要許多層,包括對噪音環(huán)境的模擬。但這種多層結(jié)構(gòu)不見得就一定是神經(jīng)網(wǎng)絡(luò),用深層生成模型能更自然地實現(xiàn)。
當(dāng)時(2002-2006)我在微軟領(lǐng)導(dǎo)一支小團隊在這方面做了很多研究工作。那時相對比較有效的理論就是貝葉斯網(wǎng)絡(luò)與相應(yīng)的方法。但關(guān)鍵在于,如果層數(shù)很多,并且在動態(tài)過程中進(jìn)行語音識別時,它的學(xué)習(xí)和推斷過程很難駕馭。就是說,增加層數(shù)后帶來的計算復(fù)雜度呈指數(shù)級增長。我們發(fā)明了很多方法來近似指數(shù)級增長的計算。近似之后結(jié)果還不錯,但是比精心設(shè)計和調(diào)制的隱馬爾科夫模型在準(zhǔn)確率上沒有非常大的進(jìn)步,但計算量卻大得非常多。
后來我就看到了 Hinton 2006 年關(guān)于深度信念網(wǎng)絡(luò)的論文(注:《A fast learning algorithm for deep belief nets 》)。當(dāng)時我就很奇怪,他的這個生成模型也是很多層,為何沒有出現(xiàn)這些問題?2009 年,我請 Hinton 來微軟討論這個問題,就發(fā)現(xiàn)深度信念網(wǎng)絡(luò)比較容易的原因是它不涉及動態(tài)。我們就把嚴(yán)謹(jǐn)?shù)膭討B(tài)模型去掉,但把時域上的向量數(shù)加大來近似嚴(yán)謹(jǐn)?shù)膭討B(tài)模型,最后的簡化模型給出的結(jié)果還不錯。但另外一個問題是,即使用了簡化的動態(tài)模型,有很多層的深度生成學(xué)習(xí)仍然需要很大計算量。于是我們就想到了下一個巧妙的方法:把生成模型倒轉(zhuǎn)方向 --- 在語音識別中我們有許多打好標(biāo)簽的數(shù)據(jù),我們就可以使用自下而上的神經(jīng)網(wǎng)絡(luò)而不是自上而下的生成模型。 這實際上就成為深度神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫模型結(jié)合的雛形。最后的實驗結(jié)果就讓人滿意了,而且學(xué)習(xí)的過程也更加可控。
鄧力與 Geoffrey Hinton 合辦的 NIPS Workshop 《Deep Learning for Speech Recognition and Related Applications》,首次將深度學(xué)習(xí)用于語音識別。圖片來源:鄧力演講 PPT。
這是當(dāng)時我和 Hinton 合作研究的一部分內(nèi)容,把隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)結(jié)合起來,并取得了比較好的初步表現(xiàn)。但是所用的一系列近似產(chǎn)生了其他問題。比如,發(fā)音系統(tǒng)的運動是產(chǎn)生語音的一個因果機制(causal mechanism),但神經(jīng)網(wǎng)絡(luò)無法模擬這種關(guān)系。 所以這種深度神經(jīng)網(wǎng)絡(luò)失去了大部分的解析性。這在語音識別應(yīng)用上問題不算太嚴(yán)重。但在我現(xiàn)在領(lǐng)導(dǎo)的很多其他更重要的應(yīng)用上, 問題就嚴(yán)重得多。所以我們在做多方面很深入的研究來推進(jìn)改善現(xiàn)有的深度學(xué)習(xí)方法。
這種方法整合和創(chuàng)新的思路同樣可以用于無監(jiān)督學(xué)習(xí)。我在這方面想了很多,與團隊成員一起工作,經(jīng)驗也積累了不少。
機器之心: 您和 Hinton 合作了很長時間,他對您有什么啟發(fā)嗎?
鄧力:他非常好,我從他身上學(xué)到了非常多東西。他對科學(xué)充滿了激情,而且有著非常好的洞察力,特別對類腦算法的研究非常深入。記得上次同他討論的整個小時談的都是類腦算法。過去在和他合作的過程中我收獲很大,也希望將來能有機會和他繼續(xù)合作。
鄧力和 Geoffrey Hinton,圖片來源:微軟研究院。
三、對人工智能研究現(xiàn)狀和未來進(jìn)展的看法
將來人工智能的成功一定是不同種類方法的整合,就像人一樣,擁有各種思維方法的完整系統(tǒng),應(yīng)該很自然的把神經(jīng)網(wǎng)絡(luò)方法、貝葉斯理論方法, 符號式邏輯推理等其他理論方法整合在一起。
機器之心:從 NIPS 2015 來看,不同神經(jīng)網(wǎng)絡(luò)之間的模塊化組合越來越多,您如何看待這種趨勢?
鄧力:現(xiàn)在人工智能之所以這么成功,就是因為模塊化,可以把不同成功的工具和方法整合在一起。比如在復(fù)雜的神經(jīng)網(wǎng)絡(luò)里,以前大家沒有為訓(xùn)練用的自動求導(dǎo)工具,要花大量時間做求導(dǎo)和程序開發(fā)及調(diào)試工作。有了這些模型組合和工具之后,您只需要訓(xùn)練輸入數(shù)據(jù),訓(xùn)練結(jié)果就出來了,訓(xùn)練也就完成了,省了很多工程量。所以這種趨勢對以深度神經(jīng)網(wǎng)絡(luò)為主的人工智能快速發(fā)展非常有利。
機器之心:目前序列映射學(xué)習(xí)(sequence to sequence learning)的效果非常好,它在應(yīng)用中還有哪些局限嗎?
鄧力:所謂 sequence to sequence,最早(一年半前)Google Brain 研究人員用在機器翻譯時是基于用一個「thought vector」來對整個輸入句子進(jìn)行編碼。 但是它的記憶(memory)不夠好,后來加上了注意模型(attention model)來彌補記憶不足的問題,所以現(xiàn)在的機器翻譯用了注意模型之后已經(jīng)比之前序列映射學(xué)習(xí)有了很大提升。我覺得這個方法還不錯,但是更好的方法是把記憶能力進(jìn)一步提升。總之,sequence to sequence 是一個很好的方向,而更好的方向是 structure to structure。
機器之心:您認(rèn)為在深度學(xué)習(xí)研究中還面臨著哪些亟待解決的問題嗎?比如 Yann LeCun 和 Yoshua Bengio 就一直強調(diào)說,需要在無監(jiān)督學(xué)習(xí)方面取得突破。
鄧力:我也在去年夏天就看到這個重要問題有解決的希望。目前我們團隊花了很多精力在做有自己特色的無監(jiān)督學(xué)習(xí),但這方面的研究確實比較難做。目前在我們團隊之外我看到大家的想法不少但還沒有很大的思想突破,我所看到的資料里都沒有實質(zhì)性的進(jìn)展。
把無監(jiān)督學(xué)習(xí)做好是一個很大的挑戰(zhàn),而我們獨特的的解決辦法依賴于四種知識源泉。1)沒有標(biāo)簽也不要緊,因為人類學(xué)習(xí)也不見得每次都有標(biāo)簽。在沒有標(biāo)簽的情況下你就要利用知識,知識應(yīng)該很容易并幾乎不花錢得到,因為很多知識都是現(xiàn)成的,比如說標(biāo)簽的統(tǒng)計特性。現(xiàn)在的機器學(xué)習(xí)、語音識別和圖像描述都可以使用這種統(tǒng)計特性,從取之不盡、用之不竭的互聯(lián)網(wǎng)和其他大數(shù)據(jù)中抽取出語言序列的統(tǒng)計特性。這就是說,我們是把輸出部分的結(jié)構(gòu)挖掘出來并巧妙地利用它。2)把輸入數(shù)據(jù)的統(tǒng)計結(jié)構(gòu)模擬出來并加以利用。3)模擬并利用從輸出(標(biāo)簽)到輸入的關(guān)系,這個任務(wù)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)很難做的了,只能依靠與深度生成模型(Deep Generative Modeling)。4)從輸入到輸出的關(guān)系,這個任務(wù)是目前神經(jīng)網(wǎng)絡(luò)非常擅長的。如果把四種知識源泉全部巧妙地用上,就有可能解決無監(jiān)督學(xué)習(xí)問題。所以,要解決無監(jiān)督學(xué)習(xí)問題,現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)方法是不夠的。
深度無監(jiān)督學(xué)習(xí)的要點,來源:鄧力演講 PPT。
機器之心:雖然目前深度學(xué)習(xí)越來越強大,但之前傳統(tǒng)的線性方法和深度學(xué)習(xí)之間是否也應(yīng)該是相互補充的關(guān)系?
鄧力:相對簡單的問題可以用線性方法,比較復(fù)雜的問題就要用深度學(xué)習(xí)非線性方法。但有時線性方法也會幫助幫助非線性深度學(xué)習(xí)方法。比如我開始給你講的我同我的博士生 1994 年發(fā)表在《Neural Networks》上的論文——將線性項加入非線性項會提高原先非線性時間序列的時序記憶能力(temporal correlation structure)并給出嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)分析。 又比如我的同事們近期所研究的 深度殘差網(wǎng)絡(luò)(deep residual networks) 多層結(jié)構(gòu),還有我和團隊在 2011-2013 期間所研究的 deep stacking networks 與 deep kernel networks 都是通過線性方法和非線性方法結(jié)合在一起的。所以線性方法還是很有用的,應(yīng)該成為深度學(xué)習(xí)的一部分。
機器之心:有研究者稱目前的深度學(xué)習(xí)需要的數(shù)據(jù)量太大。紐約大學(xué)的 Gary Marcus 一直在批評深度學(xué)習(xí),他認(rèn)為應(yīng)該像嬰兒一樣通過極少數(shù)案例就能完成學(xué)習(xí)。另外,根據(jù) Brenden Lake 等人在《Science》發(fā)表的論文《Human-level concept learning through probabilistic program induction》,使用貝葉斯程序?qū)W習(xí)的方法讓機器很快就能學(xué)會陌生字符,解決了特定任務(wù)下「one shot」學(xué)習(xí)的問題。深度學(xué)習(xí)是不是也應(yīng)該和其他方法結(jié)合起來,來應(yīng)對不同的數(shù)據(jù)量?
鄧力:我同意,如果是少量數(shù)據(jù)的話,神經(jīng)網(wǎng)絡(luò)不見得是最好的。將來人工智能的成功一定是把不同方法的整合,就像人一樣,人的不同的學(xué)習(xí)方法也很難明顯的區(qū)分開來,這是一個完整的系統(tǒng),應(yīng)該很自然的把神經(jīng)網(wǎng)絡(luò)理論、貝葉斯方法等其他理論整合在一起,這樣就和人類大腦有點像了。
人工智能未來研究的挑戰(zhàn),來源:鄧力演講 PPT。
這個實現(xiàn)之后,遇到大量數(shù)據(jù)就使用從下到上的神經(jīng)網(wǎng)絡(luò)方法,遇到少量數(shù)據(jù)就使用從上到下的生成模型,但最好的是將兩個過程循環(huán)使用。就像人腦一樣,白天是從下到上,看到東西聽到聲音產(chǎn)生感覺;晚上從上到下,做夢生成,不好的東西丟掉,好的東西儲存進(jìn)入記憶。人類不斷重復(fù)這個醒與睡和睡與醒的過程,而我們的訓(xùn)練方法也應(yīng)該這樣,又有感知,又有生成。目前的深度神經(jīng)網(wǎng)絡(luò)還比較簡單,信息主體上是從下到上,還無法做到以上那種循環(huán)。
我讀過 Brenden Lake 等人在《Science》發(fā)表的這篇很強的論文。他們的實驗顯示,單單靠從下到上的神經(jīng)網(wǎng)絡(luò)是無法完成類腦的人工智能的。
機器之心:接下來人工智能的研究是否要從神經(jīng)認(rèn)知科學(xué)領(lǐng)域獲得越來越多的靈感?
鄧力:我是很贊成這個,但要非常小心。Gary Marcus 屬于人工智能和認(rèn)知科學(xué)流派中的符號主義,符號主義可以做推理,但比較難做學(xué)習(xí)。我和團隊同一些大學(xué)教授合作,現(xiàn)在的很大一部分工作是如何將符號處理的推理跟深度神經(jīng)網(wǎng)絡(luò)整合在一起,使得符號處理可以用深度學(xué)習(xí)的方法來完成。這個研究課題就是從認(rèn)知科學(xué)領(lǐng)域的核心問題啟發(fā)出來的。
從整個人工智能體系的方法和認(rèn)知科學(xué)來看,符號處理和推理屬于一派(Symbolists);神經(jīng)網(wǎng)絡(luò)屬于聯(lián)接主義(Connectionists);第三個是基于統(tǒng)計學(xué)的貝葉斯方法(Bayesians);第四種是演化理論(Evolutionaries),但這個實在太慢了,離產(chǎn)業(yè)比較遠(yuǎn)。第五種叫做類比學(xué)習(xí)(Analogizer),但類比學(xué)習(xí)有自己的局限性,數(shù)據(jù)大了之后無法規(guī)模化,但是在某些情況下還是可以用。
我覺得到最后這些方法應(yīng)該全部整合在一起,生成一個非常漂亮、統(tǒng)一的理論,不管遇到各種數(shù)據(jù)量、各種場合都可以處理。但是從研究來看,不可能五個一起做,我們是兩三個整合一起。這個是基礎(chǔ)研究,研究到一定程度如果好用,我們再把它應(yīng)用。
機器之心:之前的自然語言處理、語音識別會基于規(guī)則、語法等語言學(xué)理論,現(xiàn)在的深度學(xué)習(xí)研究者是如何看待 Norm Chomsky 語言理論的?
鄧力:我認(rèn)為 Chomsky 語言學(xué)理論的一部分還是有用的。為什么呢?像剛才講的那個貝葉斯程序?qū)W習(xí)的「one shot leanrning」實際上就和 Chomsky 的理論有點像。所以這個是不能丟掉的,尤其是要做無監(jiān)督學(xué)習(xí)的話。當(dāng)數(shù)據(jù)少甚至沒數(shù)據(jù)或他們的標(biāo)簽的話,我們就需要知識庫。當(dāng)您想要把標(biāo)簽丟掉來做學(xué)習(xí)(這會節(jié)省巨大資源所以很有實用價值),這些知識庫應(yīng)該都要加進(jìn)來。至于如何添加,也不是按照以前的方法,而是將其作為一種知識源加進(jìn)去。我覺得完全丟掉這樣一個如此重要的研究成果太可惜了,Chomsky 語言學(xué)確實有它的道理,但最大的局限性在于它不重視學(xué)習(xí)而把語言結(jié)構(gòu)知識歸于天賦(innate)。 因此,如果將 Chomsky 理論和深度學(xué)習(xí)進(jìn)行整合的話會最好。
機器之心:DeepMind 創(chuàng)始人 Hassabis 曾表示,他們所研究的深度增強學(xué)習(xí)是要實現(xiàn)一種通用的解決方案,您在演講中提到增強學(xué)習(xí)其實解決的是決策最優(yōu)化的問題,那它將來的應(yīng)用是不是非常廣泛?
鄧力:這兩者是一致的。決策最優(yōu)化的問題就是要解決采取什么樣的方案才能取得長期的最佳利益。這是非常通用的。這個問題也可以看成用現(xiàn)有的觀察數(shù)據(jù)(狀態(tài)變量)來「推測」什么是現(xiàn)時的最佳行動。這里并沒有在有監(jiān)督學(xué)習(xí)中提供的「標(biāo)簽」信號, 而且需要做有監(jiān)督學(xué)習(xí)中不需要的探索(exploration)。
以前的增強學(xué)習(xí)在實際應(yīng)用上無法很好的工作,是因為狀態(tài)空間 (state space) 很大,只能做一些小規(guī)模的基礎(chǔ)研究,太大的狀態(tài)空間會帶來更多的指數(shù)型增長的參數(shù),就無法進(jìn)行學(xué)習(xí)。而近期由 DeepMind 帶來的深度增強學(xué)習(xí)的突破在于把很大的狀態(tài)空間用深度神經(jīng)網(wǎng)絡(luò)表達(dá)出來,而不是像傳統(tǒng)方法一樣把幾乎無限大的所有空間模擬出來。比如 DeepMind 研究的 Atari 游戲,狀態(tài)空間極端的大。在 DeepMind 引入深度神經(jīng)網(wǎng)絡(luò)之前,傳統(tǒng)的增強學(xué)習(xí)方法無法處理。以前也有過用線性方法將狀態(tài)空間成一個低維向量,但這樣太粗淺。深度增強學(xué)習(xí)把這種機制變成可生成,而且很大,在這種情況下就可以用深度神經(jīng)網(wǎng)絡(luò)計算出來的向量把很大空間上的信息吸收進(jìn)來,而且我們有了很強的學(xué)習(xí)方法。因此,現(xiàn)在增強學(xué)習(xí)的成功就是深度學(xué)習(xí)成功的強有力的證明。
講到?jīng)Q策最優(yōu)化和深度增強學(xué)習(xí), 我的團隊現(xiàn)在還有一個研究就是基于自然語言的人機對話。以前的對話方法很難做成,但我認(rèn)為深度增強學(xué)習(xí)會使得人機對話研究有所突破。
四、給人工智能從業(yè)者的建議
如果你想要做很實際的應(yīng)用,就要看準(zhǔn)現(xiàn)在已經(jīng)很成功的方法;如果你想去推動這個領(lǐng)域的發(fā)展,做一些非常前沿的研究,那在機器學(xué)習(xí)和人工智能的基本功方面就要有深厚積累。
機器之心:您在人工智能和語音識別領(lǐng)域有著豐富的研究經(jīng)驗,取得了令人矚目的成績,微軟研究院也非常注重人工智能基礎(chǔ)研究,希望推動行業(yè)發(fā)展。在人工智能研究方面,您能否給國內(nèi)的研究者提供一些建議?
鄧力:據(jù)我所知,國內(nèi)有很多公司和研究機構(gòu)在這方面已經(jīng)做的很好了,比如科大訊飛、百度、思必馳和出門問問等在語音方面就做的非常好。
微軟有著比較好的研究條件,而且作為一家大公司想做比較前沿的技術(shù)研究,以影響整個科技發(fā)展的潮流。我所主持的工作一大部分是在做這方面研究,就是多次提到的把不同種類的人工智能方法整合起來并從中開拓創(chuàng)新領(lǐng)域。所以從這個角度來講,我感覺這方面的基礎(chǔ)研究一定要做好,這樣才能夠影響人工智能的發(fā)展,甚至是科技的發(fā)展。國內(nèi)在這方面好像缺少了一點。
機器之心:他們之所以缺少這些東西,是因為沒有像微軟、谷歌這么好的硬件條件?還是說在研究的文化和理念上有一些缺失?
鄧力:我覺得更多的在于理念上可能不太一樣,但現(xiàn)在中國顯然比以前好多了,因為有很多從國外回來的研究人員,他們將這種理念帶回了國內(nèi),所以中國在這方面的觀念正在改變。
13 年前有本書叫《成長——微軟小子的教育》。 當(dāng)時李開復(fù)安排我跟作者凌志軍會談,志軍問了我一模一樣的問題,我的回答是中美之間在教育和思想方式有很大區(qū)別。我現(xiàn)在已經(jīng)改變了這一點,從教育上講,中國確實不比美國差。中科大、清華北大這些學(xué)生的成績非常好。我當(dāng)時從科大畢業(yè)去美國讀研究院,我的導(dǎo)師認(rèn)為我本科畢業(yè)時掌握的知識是美國碩士才可以學(xué)到的。但我覺得可能還是缺乏一些靈感和想象力。
我舉個例子,這個例子好像在凌志軍的書上也出現(xiàn)過。在一次 IEEE-ICASSP 會議上,國內(nèi)一位語音專家問我,為什么你們北美教授寫的論文都是很新的東西?那是 20 年前,每次會議的論文集都特別厚,我們的方法是在開會時記錄一些重要的東西,然后經(jīng)過思考去做一些新的東西,而這位中國教授則是把這 1000 多頁的資料帶回國,每天打太極拳打累了就看幾頁,一年 365 天剛好看完。當(dāng)時我就想,難怪在科研上很難創(chuàng)新,把時間都花在了去年的研究成果上。這可能和中國的文化有關(guān)系——一定要把現(xiàn)有的東西學(xué)習(xí)透,然后才去做創(chuàng)新。但有時不需要這樣,你要把不重要的東西丟掉,把核心信息提取出來,這樣才能更好的創(chuàng)新。不然你連發(fā)現(xiàn)哪些是前沿研究的時間都沒有。我現(xiàn)在通過媒體獲取信息也是這樣,不重要的東西要立刻忽略掉。所以判斷力很重要。
做科學(xué)研究一定要找到最正確的方法。比如剛才提到的無監(jiān)督學(xué)習(xí)的重要性,我很早就知道無監(jiān)督學(xué)習(xí)很重要,但找到解決的辦法是很困難的。你要不斷嘗試,從失敗中吸取教訓(xùn),在這個過程中一定要看準(zhǔn)大的目標(biāo),把一些沒用的過濾掉。
機器之心:現(xiàn)在有越來越多的人工智能工具開源,而國內(nèi)的公司又比較注重商業(yè),缺乏做底層創(chuàng)新或基礎(chǔ)研究的文化。那開源是否會助長「拿來主義」,使他們把更多的精力放在商業(yè)應(yīng)用上,而更加忽視了基礎(chǔ)研究?
鄧力:我的意思正好相反。開源并不是說你拿來之后就可以直接用,有開源工具是會使你創(chuàng)新更快。之前我要設(shè)計一些算法,我都不敢把神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法設(shè)計的太復(fù)雜,因為實習(xí)學(xué)生的實習(xí)時間通常就 3 個月,架構(gòu)和算法太復(fù)雜就可能會在有限期內(nèi)完成不了指定的項目。而現(xiàn)在我就敢把神經(jīng)網(wǎng)絡(luò)架構(gòu)和算法做的很復(fù)雜了,因為有了這些開源工具,我們把幾個模塊搭好,學(xué)生就不用一個個去推導(dǎo)了,可以直接獲取結(jié)果。所以,并不是大家都依賴開源而不去思考新的東西,而是開源以后會讓你更有膽量去做更復(fù)雜的模型。再拿無監(jiān)督學(xué)習(xí)舉例,開源大大加快了我?guī)ьI(lǐng)團隊的研究速度。所以,開源確確實實對深度學(xué)習(xí)的進(jìn)展起了一個非常大的推動作用。越多開源越好,因為開源的主要好處是大家集體貢獻(xiàn),形成一種良好的生態(tài)圈, 并同時推動更快速地實驗檢驗人工智能方法的有效性。
機器之心:微軟在人工智能技術(shù)應(yīng)用上也做到非常出色,包括實時翻譯、圖像識別等工具,在人工智能技術(shù)應(yīng)用方面,您有沒有一些心得或者建議給到國內(nèi)的人工智能公司?
鄧力:實際上我們微軟在人工智能技術(shù)應(yīng)用上的很多重大進(jìn)展尚未對外公布。至于心得或者建議, 我想說的是做人工智能研究和應(yīng)用的技能有幾個層次。最底層的技能就是把各種方法弄懂,知道它們各自的局限性。第二層的技能就是把各種工具用熟練,看到問題后馬上匹配相應(yīng)工具,這樣就可以把模型做大,解決更難的問題。第三層技能是,要知道在具體領(lǐng)域中哪些方法可以用,哪些方法不可以用。比如說,過去幾年內(nèi)我做了大約20 方面的深度學(xué)習(xí)和人工智能應(yīng)用,然后一邊看應(yīng)用一邊看數(shù)據(jù),理解數(shù)據(jù)的性質(zhì),理解數(shù)據(jù)多還是少,是否有標(biāo)簽,標(biāo)簽是否干凈可靠,要弄清楚這些因素如何影響深度學(xué)習(xí)方法的有效性,這是需要長時間積累的。因為目前深度學(xué)習(xí)還沒有一個非常漂亮的理論,所以還無法非常明確的解釋什么情況下可以得到什么結(jié)果。所以我認(rèn)為,如果想要做很實際的應(yīng)用,就要看準(zhǔn)現(xiàn)在已經(jīng)很成功的方法;如果你想去推動這個領(lǐng)域的發(fā)展,做一些非常前沿的研究,那在機器學(xué)習(xí)和人工智能的基本功方面就要有深厚積累,只有這樣你才能知道不同方法的優(yōu)勢和局限。
機器之心:去年發(fā)生了一個事情,機器在解釋圖片時把一對黑人夫婦標(biāo)記成了大猩猩,這種問題對于我們做后續(xù)研究會帶來哪些啟示嗎?
鄧力:我覺得這個問題暴露出了人工智能的一些缺點,這就像 AlphaGo 輸?shù)粢痪忠粯樱憬?jīng)歷過這些錯誤之后就學(xué)會了這種方法的局限性, 然后開拓新方法新理論。以后公司對此要格外小心,并且我們要從這類錯誤中吸取教訓(xùn),這樣人工智能就會更少的犯這種錯誤,這種反復(fù)會使人工智能有新的提升和突破。其實這種政治性的錯誤還是很容易避免的---只要把一些敏感詞除掉。
機器之心:您在日常研究和學(xué)習(xí)過程中,有哪些獲取信息和閱讀的技巧和方法嗎?
鄧力:我主要是在 Facebook、Google+ 上關(guān)注一些優(yōu)秀的研究者,包括 Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio 等,然后設(shè)置一些信息推送。NIPS,ICML,JMLR,arXiv 上都有很新很好的工作進(jìn)展,偶爾 Science 和 Nature 也會有。 另外,也會通過微信閱讀一些中文內(nèi)容,希望有更多的機會讀機器之心的相關(guān)中文內(nèi)容。
致 謝
采訪稿完成后,鄧力研究員在百忙之中拿出了幾個小時的時間,非常嚴(yán)謹(jǐn)?shù)膶ι婕叭斯ぶ悄芾碚摵图夹g(shù)細(xì)節(jié)的內(nèi)容做了確認(rèn)和補充,以保證讀者獲取更加準(zhǔn)確和翔實的知識。在此,對鄧力研究員表示由衷感謝!同時,也感謝阿爾法公社邀請機器之心參加此次會議,并積極促成了本次專訪。
本文由機器之心原創(chuàng)
| 歡迎光臨 (http://m.raoushi.com/bbs/) |
Powered by Discuz! X3.1 |