日韩av高清在线不卡免费观看,黄色毛片手机在线视频,日本久久成人免费电影,国产精品久久久久久久久无码男男

微信掃一掃,關注公眾號

  • 科技行者

  • 算力行者

見證連接與計算的「力量」

首頁 谷歌論文詳解AlphaZero:為國際象棋、將棋與圍棋帶來新曙光

谷歌論文詳解AlphaZero:為國際象棋、將棋與圍棋帶來新曙光

2018-12-10 11:51
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2018-12-10 11:51 ? 科技行者

2017年年末,Google AI 子公司 DeepMind 的研究人員宣布他們的 AI 程序進化到了 AlphaZero,利用自對弈強化學習,在短時間內(nèi)打敗了頂尖的國際象棋和將棋(日本版國際象棋)程序,也就是說,在只知道基本規(guī)則的情況下,AlphaZero 靠自對弈精通了圍棋、國際象棋和將棋。上周末,DeepMind 在《科學(Science)》期刊上發(fā)表了一篇通用強化學習算法論文(預印本PDF),得到了評審編輯的初步確認與更新。論文描述了 AlphaZero 如何快速學習三種棋類游戲成為史上最強的棋手,盡管它僅了解游戲基本規(guī)則而沒有其它該領域的知識、且無需任何內(nèi)置指導。

“I can’t disguise my satisfaction that it plays with a very dynamic style, much like my own!(它在對弈中表現(xiàn)出的活力與能量讓我感到莫名興奮,在這一點我們是共通的?。?——加里·卡斯帕羅夫(Garry Kasparov),前國際象棋世界冠軍

這種從零開始學習棋類技藝的能力不會受到人類思維方式的束縛,因此催生出一種獨特、不同于傳統(tǒng)且極具創(chuàng)造力及動態(tài)思考風格的對弈方法。國際象棋大師 Matthew Sadler 與女子國際象棋大師 Natasha Regan 在即將于明年1月出版的《Game Changer》一書中對 AlphaZero 的數(shù)千盤對弈進行了分析,發(fā)現(xiàn)其棋路完全不同于任何以往國際象棋引擎。Matthew表示,“它的出現(xiàn),就像是帶來了古代象棋大師的秘傳一般。”

包括世界計算機國際象棋冠軍 Stockfish 與 IBM 公司打造的“深藍”在內(nèi)的各種傳統(tǒng)國際象棋引擎,依賴于大量由頂尖人類棋手提供的規(guī)則與啟發(fā)式方法。這些信息用于解釋對弈中的每一種可能性。將棋也是如此,因此相關程序僅適用于一種棋類游戲,只是采用彼此相近的搜索引擎與算法。

AlphaZero的方法完全不同,它利用一套深層神經(jīng)網(wǎng)絡與大量通用型算法取代了手工編寫的規(guī)則。更重要的是,除了基本規(guī)則之外,這些算法中沒有預設任何固有方法。

谷歌論文詳解AlphaZero:為國際象棋、將棋與圍棋帶來新曙光

谷歌論文詳解AlphaZero:為國際象棋、將棋與圍棋帶來新曙光

圖:在國際象棋中,AlphaZero用4小時成功擊敗Stockfish; 擊敗將棋世界冠軍Elmo只花了2個小時; 而在圍棋方面,AlphaZero用30個小時打敗了曾經(jīng)將圍棋世界冠軍李世石斬于馬下的AlphaGo。(備注:每個訓練步驟代表著4096個盤面位置)

在學習棋藝的過程中,這套未訓練神經(jīng)網(wǎng)絡利用強化學習這一實驗與試錯流程進行數(shù)百萬輪自我對弈。最初,其基本就是隨意亂下,但隨著時間推移,系統(tǒng)會從勝利、失敗與平局當中汲取經(jīng)驗,調(diào)整神經(jīng)網(wǎng)絡參數(shù),確保自身在未來的選擇中做出更加有利的判斷。

“Some of its moves, such as moving the King to the centre of the board, go against shogi theory and - from a human perspective - seem to put AlphaZero in a perilous position. But incredibly it remains in control of the board. Its unique playing style shows us that there are new possibilities for the game.(它選擇的某些棋步,例如將王移動至棋盤中心,與原有將棋理論明顯沖突; 而且從人類的角度看,這可能導致其陷入不利局面。但難以置信的是,AlphaZero仍然牢牢把握著主動權(quán),其獨特的棋路讓我們意識到將棋中還隱藏著新的可能性。)"——Yoshiharu Habu,職業(yè)九段,唯一一位斬獲七大將棋賽桂冠的大師

訓練完成之后,這套網(wǎng)絡將指導蒙特卡洛樹搜索(Monte-Carlo Tree Search,簡稱MCTS)算法選擇當前盤面中最有利的走法。在每一步棋中,AlphaZero進行的位置搜索量只相當于傳統(tǒng)棋類引擎的極小一部分。以國際象棋為例,AlphaZero每秒只需要搜索6萬個位置,Stockfish則需要搜索大約6000萬個位置。

谷歌論文詳解AlphaZero:為國際象棋、將棋與圍棋帶來新曙光

在訓練完成之后,這套系統(tǒng)開始與最強大的傳統(tǒng)國際象棋(Stockfish)與將其(Elmo)引擎對抗,甚至與其前代版本AlphaGo來了一場“同室操戈”。

  • 各程序運行在專門設計的硬件上。Stockfish與Elmo需要44個CPU核心(與TCEC世界大賽時的硬件配置相同),AlphaZero與AlphaGo Zero則采用4個第一代TPU與44個CPU核心。第一代TPU的推理速度與英偉達Titan V GPU等商用硬件基本相當,不過二者架構(gòu)差別很大,難以做出直接比較。

  • 所有比賽時長均為3小時,每步棋額外增加15秒。

最終,AlphaZero在全部比拼中都以大比分勝出:

  • 國際象棋中,AlphaZero打敗了206年第9屆TCEC世界錦標賽冠軍Stockfish——AlphaZero勝出155場,且?guī)茁蕛H為千分之六。為了證明AlphaZero的發(fā)揮穩(wěn)定性,我們還為雙方準備了人類常規(guī)開盤后的多種殘局。在各盤殘局中,AlphaZero仍能擊敗Stockfish。另外,我們也讓AlphaZero面對了2016年實際比賽中的真實開局,而其對手則換成近期剛剛進行升級的Stockfish版本以及另一個擁有強大開局走法儲備的變體版本。雖然壓力很大,但AlphaZero仍然獲得了全勝戰(zhàn)績。

  • 將棋比賽中,AlphaZero擊敗了2017年CSA世界錦標賽冠軍Elmo,勝率為91.2%。

  • 圍棋方面,AlphaZero擊敗了AlphaGo Zero,勝率為61%。

谷歌論文詳解AlphaZero:為國際象棋、將棋與圍棋帶來新曙光

除了勝負之外,更重要的是AlphaZero在對弈中展現(xiàn)出的風格。仍然以國際象棋為例,AlphaZero在自主學習與訓練中就自行發(fā)現(xiàn)了不少常見的傳統(tǒng)技巧,例如開口、保王以及列兵等。但由于完全不受傳統(tǒng)思維的束縛,AlphaZero也發(fā)展出了自己的直覺與策略。其提出的一系列極為新穎的想法,大大擴展了幾個世紀以來人類對于國際象棋策略的理解。

“Chess has been used as a Rosetta Stone of both human and machine cognition for over a century. AlphaZero renews the remarkable connection between an ancient board game and cutting-edge science by doing something extraordinary.(一個多世紀以來,國際象棋一直被視為區(qū)分人類與機器人認知能力的羅塞塔石碑。AlphaZero擁有卓越的表現(xiàn),讓我們開始從新的角度審視古老棋類與前沿科學之間的緊密關聯(lián)。)”——Garry Kasparov,前國際象棋世界冠軍

AlphaZero的棋路給棋手們留下了深刻的印象。Matthew Sadler表示,“它的走法擁有強烈的目的性與攻擊性,且一直將矛頭指向?qū)Ψ降耐酢?rdquo;在此基礎上,AlphaZero還在對抗中極具動態(tài)能力,包括盡可能提高我方棋子的靈活度與可移動性,同時最大程度限制對方棋子的靈活度與可移動性。同樣值得一提的是,現(xiàn)代棋藝理念中認為所有棋子具有價值,因此某一選手棋盤上棋子價值總高更高,則表明其在對弈中占據(jù)優(yōu)勢。與AlphaZero也并不太重視各種棋子的具體價值,而更傾向于在開局階段通過犧牲部分棋子獲得中遠期競爭優(yōu)勢。

Matthew評論稱,“它在各種棋子類型及位置上都表現(xiàn)出這種強烈的價值取向,這無疑令人印象深刻。”他同時觀察到,AlphaZero會在開局階段非??桃獾剡x擇“與人類高度相似的棋步。”

Matthew還提到,“傳統(tǒng)引擎非常穩(wěn)定,幾乎不會出現(xiàn)明顯的失誤。但在沒有可供參考的具體解決思路時,其往往有點無所適從。相比之下,AlphaZero能夠在這樣的情況下表現(xiàn)出「感覺」、「洞察」與「直觀」等傾向。”

“The implications go far beyond my beloved chessboard... Not only do these self-taught expert machines perform incredibly well, but we can actually learn from the new knowledge they produce.(這種影響絕不僅限于我最深愛的棋盤……這些自我學習的專業(yè)機器不僅棋藝超群,也能夠讓我們從其產(chǎn)生的新知識中得到啟發(fā)。)"——Garry Kasparov,前國際象棋世界冠軍

這種其它傳統(tǒng)棋類引擎所不具備的獨特能力,給眾多棋類愛好者們帶來了新的思路與啟發(fā)。Magnus Carlsen與Fabiano Caruana在最近的世界國際象棋錦標賽當中就采取了類似的戰(zhàn)略。Natasha Regan在《Game Changer》一書中提到,“對AlphaZero、各類頂級國際象棋引擎乃至頂級大師的棋路進行分析,確實是件令人著迷的事。AlphaZero有可能成為整個棋壇的重要學習工具。”

不止是AlphaZero,AphaGo在2016年與傳奇大師李世石對陣時同樣表現(xiàn)出類似的驚艷棋步。在這輪比賽中,AlphaGo拿出了不少極具創(chuàng)造力的表現(xiàn),特別是在第二場比賽中僅用37步就快速勝出——這徹底顛覆了人類幾百年來對圍棋的理解。李世石本人在內(nèi)的眾多棋手也開始進行深入研究。在對第37步棋進行評論時,李世石說道“我一直認為AlphaGo屬于一種以概率為基礎的計算工具,畢竟它終究只是一臺機器。但在看到這一步后,我的看法發(fā)生了改變。必須承認,AlphaGo確實具有創(chuàng)造力。”

與圍棋類似,我們對AlphaZero在國際象棋中表現(xiàn)出的創(chuàng)造力同樣感到興奮。自計算機時代開始以來,國際象棋一直是人工智能面臨的重要挑戰(zhàn)之一。巴貝奇、圖靈、香農(nóng)以及馮-諾依曼等眾多先驅(qū)都在努力尋找能夠解決國際象棋難題的方案。AlphaZero的出色之處,在于它的用途不限于國際象棋、將棋或者圍棋。為了解決各種現(xiàn)實問題,我們要求智能系統(tǒng)擁有強大的靈活性并能夠適應不同新情況。雖然我們在這方面取得了一定進展,但問題在根本層面仍然沒有得到克服。現(xiàn)有智能系統(tǒng)雖然能夠以極高的標準學會特定技能,卻仍無法處理哪怕只是做出了略微調(diào)整的任務。

AlphaZero能夠掌握三種不同的復雜棋類項目——甚至有望搞定一切可提供完美信息的項目——這代表著我們在實現(xiàn)通用型智能系統(tǒng)方面邁出了重要一步。就此來看,單一算法完全有可能在不同的規(guī)則束縛之下學習并發(fā)現(xiàn)新的知識。另外,尚處于早期發(fā)展階段的AlphaZero已經(jīng)能夠帶來創(chuàng)造性的見解; 再加上我們在AlphaFold等其它項目中得出的激動人心的成果,如今我們對于建立通用學習系統(tǒng)開始充滿信心。總結(jié)來講,我們也許能夠發(fā)現(xiàn)更多新型解決方案,并最終克服那些最為重要、最為復雜的科學問題。

本論文由David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、Timothy Lillicrap、Karen Simonyan以及Demis Hassabis共同完成。

分享至
3贊

好文章,需要你的鼓勵

推薦文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-