2025MBA報考測評申請中......
說(shuō)明:您只需填寫(xiě)姓名和電話(huà)即可免費預約!也可以通過(guò)撥打熱線(xiàn)免費預約
我們的工作人員會(huì )在最短時(shí)間內給予您活動(dòng)安排回復。
導讀:沒(méi)有人會(huì )否認,AlphaGo在過(guò)去一年炒熱全球對人工智能的關(guān)注。
沒(méi)有人會(huì )否認,AlphaGo在過(guò)去一年炒熱全球對人工智能的關(guān)注。
2016年3月,谷歌Deepmind旗下的圍棋程序AlphaGo,以4比1的成績(jì)戰勝韓國職業(yè)棋手李世石。一年后,拿掉所有人類(lèi)知識、完全靠自學(xué)的AlphaGo Zero,在今年10月又以100比0的戰績(jì)碾壓“AI前輩”AlphaGo。從擊敗人類(lèi)、到自學(xué)成材,AlphaGo的進(jìn)展超乎預期,研發(fā)團隊也自然成為關(guān)注焦點(diǎn)。這當中,被稱(chēng)為AlphaGo的“人肉手臂”,替AlphaGo向棋圣聶衛平說(shuō)“謝謝聶老師”的黃士杰(Aja Huang),就是AlphaGo發(fā)展的重要推手。
上周五(11月10日)在臺灣中研院舉辦的“2017年人工智慧年會(huì )”上,黃士杰首次把AlphaGo的研發(fā)過(guò)程公開(kāi)說(shuō)清楚,除了透露新一代AlphaGo Zero的能力還沒(méi)達到極限,他更多的是去分享身為一名科學(xué)家,旁觀(guān)機器的進(jìn)步,以及一個(gè)科學(xué)團隊對基礎研究的使命和專(zhuān)注。
以下是編輯后的演講摘錄:
AlphaGo的研發(fā)過(guò)程,有四個(gè)時(shí)刻對我影響很大。
第一,是我們在韓國贏(yíng)了李世石。當我們開(kāi)始做AlphaGo時(shí),沒(méi)想到它會(huì )變得那么強。在韓國贏(yíng)了李世石后,DeepMind首席執行官Demis Hassabis立刻發(fā)了一個(gè)推特,說(shuō)“我們登上月球”(We landed it on the moon.)。我明白Demis那天的感覺(jué),這是我們團隊的一小步,但卻是人類(lèi)的一大步。
第二個(gè)時(shí)刻,是我在網(wǎng)絡(luò )上操作AlphaGo升級版“Master”,下了60盤(pán)棋。我從小喜歡下棋,在臺灣是業(yè)余六段。Master在網(wǎng)絡(luò )上對弈的對象,都是我從小崇拜的人。雖然不是我真正在下棋,但卻感到非常榮幸。
第三個(gè)時(shí)刻,是今年在烏鎮進(jìn)行的人機大戰,由我操作AlphaGo和世界冠軍柯潔九段下棋??聺嵾€不滿(mǎn)20歲,非常年輕,當天比賽氛圍和李世石對弈時(shí)很不同。我記得在韓國比賽,能感受到李世石承受到很大的壓力,感覺(jué)他是在為人類(lèi)而戰。我當時(shí)坐在他對面,也盡量保持謹慎的態(tài)度,不喝水、不去上洗手間。但到了第二次和柯潔對弈,比較像是人機合作的氣氛,柯潔還走過(guò)來(lái)說(shuō):“黃博士,很榮幸跟AlphaGo下棋”,坦白說(shuō)我有點(diǎn)驚訝。這也讓我們知道,如果Master是無(wú)敵的,那機器存在價(jià)值到底在哪里?應該是要幫助棋手擴張思路、擴展圍棋理論。
第四次對我意義重大的時(shí)刻,是AlphaGo Zero的出現。什么是AlphaGo Zero?我們拿掉所有人類(lèi)對圍棋的知識,只喂AlphaGo Zero圍棋規則,讓它自己學(xué)習下棋。我回想起讀博士班的熬夜日子,就是不斷寫(xiě)代碼、找bug,每天做測試,讓程序進(jìn)步。但AlphaGo Zero把我過(guò)去的所有東西全部取代,它完全不需要我的幫助。有同事問(wèn)我,Aja,AlphaGo Zero把你這十幾年來(lái)對圍棋計算機的研究,一點(diǎn)一點(diǎn)的拿掉,甚至還超越你,有什么感覺(jué)?我的確心情復雜,但后來(lái)跟同事說(shuō),這會(huì )是一個(gè)趨勢,如果我阻礙了AlphaGo,我確實(shí)應該被拿掉(笑)。AlphaGo有99%的知識是我做的,AlphaGo能走到這一步,我已經(jīng)很滿(mǎn)足,找到了收尾。
AlphaGo是怎么開(kāi)始的?
回到一開(kāi)始,AlphaGo到底是怎么開(kāi)始的?起點(diǎn)是有三組人馬的聚集:Deepmind首席執行官Demis Hassabis與AlphaGo項目領(lǐng)導David Silver、我、還有兩位谷歌大腦(Google brain)的同事Chris Maddison和Ilya Sutskever。
Demis和David原本是劍橋大學(xué)的同學(xué),友情深厚。對西方人來(lái)說(shuō),當1997年IBM超級電腦“深藍”贏(yíng)了西洋棋棋王卡斯巴羅夫之后,就只剩下流傳幾千年的中國圍棋,是人工智能發(fā)展的極大挑戰。一開(kāi)始,很多研究人員想把研究西洋棋的技術(shù)移到圍棋上,但都失敗了。在2006年蒙特卡洛樹(shù)搜索出來(lái)后,研究才提升一階,讓機器棋手的水平能達到業(yè)余三段,但離職業(yè)棋士一段還有距離。Demis和David心中開(kāi)始藏有一個(gè)夢(mèng),希望有一天要能做出一個(gè)很強的圍棋程式。
但有夢(mèng)的不只有他們,故事的另一條線(xiàn)還有我。
在就讀臺灣師范大學(xué)資訊工程博士班時(shí),我每天埋頭解bug、寫(xiě)代碼,就是希望做一個(gè)很強的圍棋程序。2010年,我研發(fā)出的圍棋計算機程序Erica(事實(shí)上是用我妻子的名字來(lái)命名),在計算機奧林匹亞獲得 19 路圍棋的冠軍。雖然Erica只是單機版,但它打敗了用了6臺PC的日本程序Zen跟其他參賽者,就像小蝦米對抗大鯨魚(yú)。當年還在英國當教授的David,在比賽后寫(xiě)信問(wèn)我有沒(méi)有興趣加入Deepmind,隔年我也正式加入團隊,成為第40號員工。
我還記得當年面試,老板問(wèn)我,能做出Erica有什么感覺(jué)?我回答,滿(mǎn)有成就的。Demis點(diǎn)頭,他明白我的感覺(jué)。
2014年,Google收購Deepmind,AlphaGo項目也正式浮現。Demis起初還在教書(shū)、還不是全職員工,就常三不五時(shí)走過(guò)來(lái)跟我討論圍棋項目的想法。真的要開(kāi)始時(shí),我們其實(shí)都已經(jīng)有些準備。
既然決定要做圍棋項目,當時(shí)我和Demis有一個(gè)共識,就是絕對不要復制Erica。Erica其實(shí)有它的極限,最勉強的就是達到業(yè)余三段,繼續復制的意義不大。我們想做不一樣的事,希望能運用到深度學(xué)習的原理。過(guò)了幾個(gè)月,團隊又增加了兩個(gè)人,包括深度學(xué)習之父以及帶動(dòng)深度學(xué)習革命的研究者。
我們怎么判斷深度學(xué)習可能應用到圍棋?如果人類(lèi)可以一看棋盤(pán)就知道下哪一步會(huì )是好棋,那么神經(jīng)網(wǎng)絡(luò )也可能辦得到這種"直覺(jué)"。但如果人類(lèi)得想五分鐘才能給出答案,神經(jīng)網(wǎng)絡(luò )可能辦不到。一開(kāi)始,我們訓練AlphaGo從人類(lèi)的棋譜去學(xué)習人類(lèi)的直覺(jué)。我還記得第一次測試神經(jīng)網(wǎng)絡(luò ),沒(méi)想到能表現得那么好,百分之百對戰都不會(huì )輸,是一種碾壓式的勝利。
AlphaGo第二個(gè)突破的是價(jià)值網(wǎng)絡(luò )。我記得當David跟我說(shuō)他有這樣一個(gè)點(diǎn)子時(shí),我還質(zhì)疑,這會(huì )成嗎?當我們把策略網(wǎng)絡(luò )(Policy Network)做出來(lái)后,最強的程式可以達到70%到80%的勝率,算得上是世界最強的。但老板的目標不只于此,我們又繼續找人、繼續擴充團隊。
這過(guò)程其實(shí)很辛苦,嘗試很多,譬如網(wǎng)絡(luò )要多深、要用什么架構?數據庫有沒(méi)有問(wèn)題?最終檢驗的,還是看AlphaGo有沒(méi)有變強。過(guò)了一個(gè)月之后,我們找到了問(wèn)題并且解決掉,我仍然記得,舊版AlphaGo配上價(jià)值網(wǎng)絡(luò )產(chǎn)生的新版AlphaGo,第一次的實(shí)驗結果是達到95%的勝率,棋力非常強??梢赃@么說(shuō),AlphaGo的成功就是深度學(xué)習與強化學(xué)習的勝利,因為兩者結合在一起,建構判斷形式的價(jià)值網(wǎng)絡(luò )(Value Network),后來(lái)也成為AlphaGo Zero的主要理論。
當價(jià)值網(wǎng)絡(luò )出來(lái)后,Demis希望我們能與歐洲職業(yè)一段棋手進(jìn)行比賽。當下,我除了要做價(jià)值網(wǎng)絡(luò ),還要研究平行網(wǎng)絡(luò )搜索技術(shù),Demis走過(guò)來(lái)說(shuō)要比賽,我只想著(zhù):真的那么有信心嗎?
后來(lái)我們與歐洲圍棋冠軍樊麾進(jìn)行比賽,最終以5比0獲勝,這結果其實(shí)也很不可思議。我記得樊麾輸了第二盤(pán)棋后,想出去走走,會(huì )說(shuō)中文的我,原本想去陪他,他揮揮手,“不用,我自己出去透透氣。”
難能可貴的是,樊麾是第一個(gè)被AI打敗的職業(yè)棋士,但他的態(tài)度非常正面。樊麾在第五盤(pán)棋雖然認輸了,但他對AI并沒(méi)有感到害怕,后來(lái)甚至也加入了團隊,幫忙測試AlphaGo。
當時(shí)要把AlphaGo研究投稿到科學(xué)期刊《自然》(Nature)也是另一段有趣的故事。我們那時(shí)剛弄出價(jià)值網(wǎng)絡(luò )、剛打敗樊麾,正準備要挑戰韓國職業(yè)棋手李世石九段,Demis為什么又要我們另外花時(shí)間去寫(xiě)論文,而不是準備比賽?為什么現在就要我們把研究秘密全部公開(kāi)?
Demis給了我一個(gè)很有意思的答案。他認為,我們是在做研究,科學(xué)的精神就是要互相分享,我們要推動(dòng)整個(gè)領(lǐng)域的進(jìn)步。也因為要寫(xiě)論文投稿,和《自然》編輯也事先談好,在出版之前,我們不能和任何人說(shuō)AlphaGo打敗了樊麾。那幾個(gè)月,所有人都憋著(zhù)不講,當論文刊登之后,才正式向李世石九段提出挑戰。
至于后來(lái)AlphaGo和李世石的比賽,大家也都知道了。
這邊要特別提到的是,TPU(Tensor Processing Unit,谷歌的高性能處理器)在研究過(guò)程中對我們有極大的幫助。自從Deepmind加入Google后,我認為Google給我們最大的幫助,就是提供了硬件設備。我還記得當時(shí)有一個(gè)GPU(圖形處理器)版本,代碼完全一樣,但改用TPU之后,勝率變得強太多。
而AlphaGo的故事也還沒(méi)結束。
就在我們打敗李世石后,很多人認為AlphaGo項目是不是不動(dòng)了。如果大家還記得,和李世石下棋時(shí),第四盤(pán)棋我們輸得很慘。當時(shí)我坐在李世石對面,要幫AlphaGo下那幾步棋,明顯知道那些下法是初學(xué)者的錯誤,要擺棋很痛苦,甚至會(huì )覺(jué)得我來(lái)下都比AlphaGo來(lái)得好。雖然我們最終贏(yíng)了,但這一盤(pán)棋確實(shí)有很大的弱點(diǎn),如果五盤(pán)棋內,有20%的錯誤率,這樣的AI系統,你敢用嗎?所以我們決定,一定要把這個(gè)弱點(diǎn)解決掉,不只是解決第四盤(pán)的問(wèn)題,是要把AlphaGo項目全面解決。
后來(lái)過(guò)了三個(gè)月,我們就把弱點(diǎn)解掉了。怎么做到的?還是采用深度學(xué)習和強化學(xué)習的方法,并不是用人類(lèi)知識的方法。第一,我們加強AlphaGo的學(xué)習能力,所謂學(xué)習能力就是把網(wǎng)絡(luò )程度加深,從第一篇論文的13層加深到40層,而且是改成ResNet。第二個(gè)改變是,把策略網(wǎng)絡(luò )和神經(jīng)網(wǎng)絡(luò )結合,讓AlphaGo的直覺(jué)和判斷一起訓練,使兩者更有一致性。這個(gè)解決后的版本,就是Master。
我那段時(shí)間一直說(shuō)服團隊,要帶Master上線(xiàn)下棋測試棋力,不要等到Master完全無(wú)敵后才下棋。2016年年底,我回到臺灣,當時(shí)特別低調,在線(xiàn)上中文圍棋網(wǎng)站奕城和野狐申請了帳號,偷偷當職業(yè)棋士下棋。12月29號開(kāi)始,我關(guān)在自己的房間里測試Master,一盤(pán)棋下一小時(shí),一早下三盤(pán)棋,然后吃飯,下午繼續,晚上吃完飯再繼續,非常累,到晚上眼睛都張不開(kāi)。
我還記得一開(kāi)始在奕城下棋,沒(méi)人要跟經(jīng)驗值為零的我對弈,直到第二天邀約才陸續上門(mén),到了第三天,還愈來(lái)愈多人觀(guān)看。那時(shí)壓力很大,很怕自己點(diǎn)擊錯誤或是網(wǎng)絡(luò )連線(xiàn)斷掉,AlphaGo不能因為我而輸掉阿。
我到現在還是很感謝那些曾經(jīng)和Master對弈的棋手。原本想低調比賽,但后來(lái)沒(méi)辦法,確實(shí)是每一盤(pán)都贏(yíng)、每一盤(pán)贏(yíng)的都是巨大的優(yōu)勢。這當中,柯潔算是唯一一位可以跟AlphaGo比賽堅持最久的。
AlphaGo Zero只用三天走過(guò)人類(lèi)的千年歷程
在Master之后,我們研究分出兩條線(xiàn),一條是讓Master出去比賽,由我來(lái)測試,另一條線(xiàn),則是把所有人類(lèi)知識拿掉,從零開(kāi)始學(xué)習,看AlphaGo Zero可以達到什么程度。
我們在初期預設AlphaGo Zero絕對不可能贏(yíng)Master。圍棋被研究了幾千年,一個(gè)程序只知道棋盤(pán)和規則,一切從零開(kāi)始,怎么可能會(huì )超越幾千年的圍棋歷史?但我們錯了,40天的訓練后,AlphaGo Zero超越了Master,我們非常意外,深度學(xué)習和強化學(xué)習的威力太大了。
AlphaGo Zero是從亂下開(kāi)始,找出圍棋的下法,它只用了三天,走過(guò)了人類(lèi)研究圍棋的千年歷程。這也是有趣的地方,人類(lèi)幾千年的累積,跟科學(xué)研究是一致的。
AlphaGo Zero前后訓練了 40 天,但第 40 天還沒(méi)有到達其極限,因為我們機器要做其他事情就先停下了。今年四月,我們也發(fā)表了AlphaGo Zero的論文,這篇論文的目的,沒(méi)有想要跟人類(lèi)知識比較、或是討論人類(lèi)知識有沒(méi)有用等問(wèn)題,而是想證明機器不需要人類(lèi)知識也可以擁有很強的能力。
我認為,未來(lái)的人工智能,是要與人類(lèi)合作,而非跟人類(lèi)對抗。強人工智能距離我們仍是遙遠,而現在最強的學(xué)習技能,其實(shí)仍在我們的腦袋里。