[情報] AlphaZero戰勝將棋與西洋棋最強軟體

作者HeterCompute (異質運算)

看板GO

標題[情報] AlphaZero戰勝將棋與西洋棋最強軟體

時間Wed Dec 6 20:38:11 2017

https://arxiv.org/pdf/1712.01815.pdf 這次論文的標題是： Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 從零學棋，使用相似的神經網路架構，一樣沒有使用任何人類知識， 4小時打敗西洋棋最強軟體Stockfish， 2小時打敗將棋最強軟體Elmo， 34小時打敗圍棋AlphaGoZero 20blocks 3天版本， (圍棋其實有些爭議，因為他這次用了5000TPU，上次AlphaGoZero只用2000TPU)，以MCTS打倒傳統的alpha beta search，通用於完全訊息遊戲，又一偉大的突破。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.169.176.30 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1512563895.A.CBE.html

推 staristic: 一個通用於下棋的AI？ 12/06 20:45

沒錯

推 tetratio: 又達到新境界了 12/06 20:50

推 BBSealion: 不知道限制多嚴格，有運氣成分的（例如暗棋）或多人的 12/06 20:54

→ BBSealion: （例如跳棋）不知道能否通用過去 12/06 20:54

暗棋這種非完全訊息遊戲很難說，跳棋這種只有多人應該沒什麼問題。 ※ 編輯: HeterCompute (118.169.176.30), 12/06/2017 20:56:17

推 birdy590: 力王：大家可以回家啦~ 12/06 20:55

推 harrybbs: 逆天啦發展這麼快 12/06 20:59

推 dongy: 暗棋可以計算機率的,但因複雜度不高,且有部分運氣,所以人類 12/06 21:01

→ dongy: 棋手會有一定勝率 12/06 21:02

推 TWN2: 想看阿法零跟赤木茂打麻將 12/06 21:04

推 zeat: AlphaGO老師：我是說在座的各位都是＿＿ 12/06 21:06

推 aegis43210: 已經征服完全訊息遊戲了，希望星海二也會有突破 12/06 21:15

推 s891234: 真的是在座的各位都是哈哈，可以回家啦~~~ 12/06 21:41

→ Lordaeron: 多人跟雙人是有很多不同,沒問題就有鬼囉. 12/06 21:43

推 turing: 這也終結了西洋棋的西西里防禦。 12/06 22:22

推 MonkeyCL: 這世界變化太快好累啊 12/06 22:35

推 hne: 太強了 O o 12/06 22:52

推 asglay: 借轉chess 12/07 00:11

※ asglay:轉錄至看板 chess 12/07 00:15

推 weiqi5566: 多人會有問題吧，有人合作或針對都會影響吧 12/07 00:27

→ wadashi1: AlphaZero:我不是說人類而已,我是說連其他程式也都是＿ 12/07 00:28

→ weiqi5566: 兩個人的完全訊息遊戲最複雜的應該就圍棋，其他應該都 12/07 00:28

→ weiqi5566: 不是問題了 12/07 00:28

推 Eleganse: 這樣的話完全訊息遊戲已經到盡頭了 12/07 00:30

→ Eleganse: 說不定世上最後一塊淨土會是麻將 AI與人類打成平手 12/07 00:31

推 indium111: 使用ZERO學習模式是不可能學會星海的，即使用map hack 12/07 01:06

→ indium111: 因為星海的規則和變化數遠遠超過圍棋太多太多了 12/07 01:07

推 weiqi5566: 非完全訊息遊戲人類跟AI互有勝負不奇怪 12/07 01:07

推 CGary: 這件事大概可以把所有完全訊息的問題解了... 12/07 01:12

推 aegis43210: 為什麼會是麻將？非完全訊息遊戲多如牛毛 12/07 02:30

推 HanaYukii: 德州撲克比麻將難多了吧 12/07 02:35

推 david1124: 我比較想看它打LOL,個種壓血和反殺XD 12/07 09:35

推 david1124: 而且說不定它可以真正演算出最適合的對線角和友方英雄 12/07 09:37

→ kenwufederer: 期待生物科技或材料的革命性 12/07 10:19

推 wadashi1: 非完全訊息難在抽卡機率計算和本身牌組的搭配,麻將、德 12/07 11:27

→ wadashi1: 州撲克其實比較好解決,星海要模擬人的地方很多,要圖片辨 12/07 11:28

→ wadashi1: 視,很多非關策略的問題要解決,個人感覺其實難多了! 12/07 11:28

推 moonlind: 才剛出一個AlphaGO zero 又再創一個打敗他我都麻痺了 12/07 11:48

→ moonlind: 就像一開始看超級賽亞人打架好興奮現在整個眼神死 12/07 11:49

→ wadashi1: 就如我之前所說的..先血洗其他棋類遊戲的軟體,沒想到只 12/07 12:08

→ wadashi1: 花這麼短的時間... (搞不好中國象棋也被KO,只是沒說..) 12/07 12:09

推 harrybbs: 中國象棋也同樣適用啊，可能是沒花資源訓練而已 12/07 12:15

→ fossil313: 老實說連將棋和西洋棋這種有放回和翻轉的都沒問題了 12/07 12:21

→ fossil313: 象棋根本只是小兒科吧 12/07 12:22

推 Tabrith: AlphaGo不要再玩遊戲了啦，學寫程式生一個AlphaGo二代w 12/07 13:49

推 wadashi1: 樓樓上說得好! 12/07 17:08

推 toya123: ALPHAGO : 我要掃蕩各種競技遊戲!! 12/07 17:48

推 ddavid: @Tabrith 會有這個想法大概是不清楚難度跳了多少等級吧XD 12/07 18:35

→ ddavid: @fossil313 沒記錯的話將棋評估的複雜度是比中國象棋高的 12/07 18:36

→ ddavid: ，將棋能搞定象棋基本上沒啥問題。是說圍棋都搞定了，本來 12/07 18:37

→ ddavid: 其他棋類都是複雜度較低的啊XD 12/07 18:37

推 ddavid: 基本上寫程式跟下棋在問題類型上就已經有距離了，而且難度 12/07 18:40

→ ddavid: 差距可是很大 12/07 18:40

推 zxshih: 德州撲克不是早就被AI打敗了嗎 12/07 18:43

推 ddavid: 雖然自寫程式的研究是有，但其實沒有完全真正從零開始，比 12/07 18:57

→ ddavid: 較像設計架構的感覺。從零開始的話還會扯出額外理解問題跟 12/07 18:58

→ ddavid: 解讀結果的問題要解決，難度又比圍棋跳升不少了 12/07 18:59

→ wadashi1: AlphaZero字面不就是從0開始,亂下由碰觸讓ai了解規則,再 12/07 19:17

→ wadashi1: 由人類修正bug,修練出強到不可思議的棋力! 12/07 19:17

推 harrybbs: 有人類修正bug嗎？ 12/07 19:21

推 supergogila: Alpha go下一版本:Alpha skynet 12/07 19:27

推 wadashi1: 樓上,這個版本沒有go了,這版是AlphaZero了! 12/07 19:41

推 ilw4e: 撲克是有限注能達到頂尖，無限注印象中還沒有能到顛峰的 12/07 20:31

今年年初就有無限注贏了吧，好像叫做DeepStack

推 Tabrith: @ddavid AlphaGo已經強到不像話了給他點挑戰嘛XD 12/07 23:25

推 ilw4e: 那個不是跟頂尖高手打啊 12/07 23:58

德州撲克不太熟悉，請問怎樣才算是頂尖高手的賽事？ ※ 編輯: HeterCompute (118.169.179.36), 12/08/2017 00:04:29

推 ddavid: @Tabrith 強到不像話是指棋類而已，亂扯一個不同類問題有 12/08 00:17

→ ddavid: 啥意義？XD 12/08 00:18

→ ddavid: F1賽車跟人賽跑也強得不像話啊，所以叫車去跟鳥比飛高嗎XD 12/08 00:19

推 ddavid: @HeterCompute TH有世界最大賽事，稱為World Series of 12/08 00:22

→ ddavid: Poker，WSOP 12/08 00:22

→ ddavid: https://goo.gl/PWktDF 12/08 00:23

→ ddavid: 其中世界大賽中的主要賽事（Main Event）就是比no-limit 12/08 00:27

→ ddavid: TH 12/08 00:27

→ ddavid: 而能比到Main Event的決賽桌大多都是一時之選了 12/08 00:28

→ ddavid: 而世界上也有許多知名的頂尖Poker選手都在這項賽事有好成 12/08 00:29

→ ddavid: 績，例如Poker界的傳奇之一Doyle Brunson曾在1976和1977連 12/08 00:30

→ ddavid: 續兩屆WSOP Main Event靠垃圾手牌非同花10-2逆轉獲勝，傳 12/08 00:32

→ ddavid: 奇到自此10-2這手牌直接被用他的名字命名 12/08 00:32

推 Tabrith: yeah 的確不是叫alphago去學而是要alphago的AI系統學 12/08 00:32

→ Tabrith: 查了一下 google 已經在別的地方開始做了 (驚 12/08 00:33

推 ddavid: 另外有個一般沒接觸TH有可能見過的知名高手是Johnny Chan 12/08 00:35

→ ddavid: ，在麥特戴蒙主演的電影賭王之王（Rounders）中客串演出賭 12/08 00:36

→ ddavid: 王的就是他，事實上也就是演出他自己 12/08 00:37

推 ddavid: 另外在我有空且很迷TH的那陣子最喜歡的職業Poker玩家是 12/08 00:41

→ ddavid: Daniel Negreanu 12/08 00:41

推 HanaYukii: 撲克AI贏得只是限定100大盲的單挑一般打的都是六人桌 12/08 00:42

→ HanaYukii: 九人桌籌碼也是上下波動的 12/08 00:42

→ HanaYukii: AI能在主流比賽或現金局都還沒攻克 12/08 00:45

推 ddavid: Poker AI如果攻克現金桌，基本上你就可以拿去玩線上TH做持 12/08 00:48

→ ddavid: 續賺錢了，就好像如果你研發出預測股價的技術就拿去投入股 12/08 00:49

→ ddavid: 市賺錢XD 12/08 00:49

推 ddavid: 另外就是，TH的現金桌跟Tournament的打法也會有所不同，同 12/08 00:53

→ ddavid: 一套訓練出來的AI基本上應該是沒法在這兩種環境共用的 12/08 00:54

→ ddavid: 如HanaYukii提到，桌上人數的不同也會影響打法 12/08 00:54

→ ddavid: 順帶一提，上面提到WSOP Main Event的buy-in（參賽費用） 12/08 00:56

→ ddavid: 是一個人一萬美金 12/08 00:56

推 ilw4e: Poker AI如果夠強線上絕對看到一堆AI在打，畢竟是真錢在賭 12/08 00:59

感謝樓上各大高手解惑，真是有趣的內容 ※ 編輯: HeterCompute (118.169.179.36), 12/08/2017 01:25:13

推 sivid: 順便提一下，master其實沒有跟zero平等較量過 12/08 02:04

→ sivid: 當時zero用的計算力比master拿到的強 12/08 02:04

推 aegis43210: 去西洋棋論壇看了一下，能對Stockfish無敗真是了不起 12/08 02:20

→ aegis43210: 的成就，每個棋譜都異常精彩 12/08 02:20

推 oldTim: 德撲的AI已經屌打人類了，之前李開復辦的比賽，卡內基美隆 12/08 02:57

→ oldTim: 大學的Libratus樂勝，只是硬體要求有點高 12/08 02:58

→ oldTim: https://www.inside.com.tw/2017/02/03/how-libratus-work 12/08 02:58

→ oldTim: 是有限注，補充一下樓上眾高手的說法 12/08 03:02

推 HanaYukii: Libratus就僅限heads up單挑阿 12/08 03:32

推 ddavid: 單挑比多人桌單純非常多，說服力還不夠 12/08 18:08

→ ddavid: 有限注也比no-limit單純更多。 12/08 18:10

→ ddavid: 另外就是，現金桌的職業高手的強項是強在1.懂得分辨出其他 12/08 18:11

→ ddavid: 的高手並且避開，找出魚並坐在那一桌，2.判讀其他人臨場的 12/08 18:12

→ ddavid: 情緒跟打法變化。大多是只打heads-up train不出來的東西 12/08 18:14

→ ddavid: AI要真的能打多個打多人桌而且決定入座或離桌，長期+EV會 12/08 18:16

→ ddavid: 比較稱得上攻克現金桌XD 至於tournament又是另一個課題。 12/08 18:17

推 ddavid: 話說看文章裡面寫說是玩no-limit 12/08 18:20

→ ddavid: https://goo.gl/AQukJd wiki也寫是針對no-limit 12/08 18:22

→ wadashi1: 所以現在alphazero策略上訓練已經超凡入聖了,接下來要克 12/08 18:24

→ wadashi1: 服的就是非關策略上,理解、圖片辨識,諸多擬人上的問題了 12/08 18:26

推 ddavid: 就算要說超凡入聖也只是針對容易模擬並評估結果的雙人對抗 12/08 18:28

→ ddavid: 資訊公開類別的問題就是了，跳問題種類要研究的事情還多呢 12/08 18:28

推 wadashi1: 圍棋那邊的確有爭議,要不alphazero至少要挑戰40天版本 12/15 11:59

→ wadashi1: 40 block的alphago Zero,畢竟用了5000個TPU.. 12/15 12:00

→ wadashi1: 不好意思!我就是抱著狗咬狗看好戲的心態,看有沒有機會 12/15 12:01

→ wadashi1: elo破6000,或讓李世石版本4子還完勝之類的! 12/15 12:02