[情報] AlphaGo Zero，新版本的AlphaGo

作者HeterCompute (異質運算)

看板GO

標題[情報] AlphaGo Zero，新版本的AlphaGo

時間Thu Oct 19 01:36:59 2017

https://www.youtube.com/watch?v=tXlM99xPQC8

https://www.youtube.com/watch?v=WXHFqTvfFSw

https://deepmind.com/blog/alphago-zero-learning-scratch/ 新的AlphaGo Zero，是完全沒有受人類棋譜影響的AlphaGo，訓練3天，以勝率100%打敗了AlphaGo 李世石版本， 21天，達到了Master版本(柯潔)的水準，並且在訓練40天之後，對Master版本勝率90%，論文也登在Nature。 https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.160.20.68 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1508348222.A.117.html

推 jacklin2002: ...終於要神乎其技了嗎？ 10/19 01:40

推 birdy590: 訓練三天後完封李世石版, 最後對柯潔版 100 場贏 89 10/19 01:46

→ birdy590: 演算法也變了.. 全靠自己訓練果然比人手動干預更強 10/19 01:47

推 yys310: Re:從零開始的下棋生活 10/19 01:47

→ birdy590: policy/value network 合併, 不再使用 rollout~ 10/19 01:48

→ birdy590: 看看其它圍棋軟體多快會跟進 10/19 01:48

推 ddavid: 這個進展有點快啊 10/19 01:53

推 AirOctopus: 連結第二個是這個吧？ 10/19 01:56

→ AirOctopus: https://www.youtube.com/watch?v=WXHFqTvfFSw 10/19 01:56

感謝

推 Borges: 好想看master被虐的棋譜..無法想像master會怎麼被虐 10/19 01:58

推 hcsoso: 棋譜在Nature論文的補充資料可找到: 10/19 02:00

→ hcsoso: https://goo.gl/xx5jbF 10/19 02:00

→ hcsoso: 有自戰, 對李世石版本, 及對Master版本的棋譜 10/19 02:03

推 hit0123: 上帝降臨了... 10/19 02:33

推 staristic: 快速打完了Zero對Master，佈局大概就兩種，開局前20手 10/19 02:35

→ staristic: 左右都長一樣，和先前55盤自戰多樣的佈局不同 10/19 02:36

→ staristic: 不知道是不是因為是掛在論文下的關係特別選的 10/19 02:36

照這個棋譜推斷，應該之前的自戰多樣布局是有選過的。另外Zero vs Master我沒數錯應該是17:3，其中有兩盤輸是因為這個布局， https://i.imgur.com/GYMPqqv.png 大膽預測右上角那個奇怪定石黑棋大吃虧，導致Zero輸兩盤。

推 staristic: 但是Zero的自戰又不一樣了，多數二連星對二連星 10/19 03:12

→ staristic: 但也有少數不是的，然後看到Zero對Master都沒出現的小 10/19 03:13

→ staristic: 目一間跳守角 10/19 03:13

Zero對Master只下二連星，自戰卻有星小目小飛守角。不太確定為什麼會這樣

→ AirOctopus: 那個自戰，好像只有40block資料夾的最後一盤是完全體 10/19 04:27

→ AirOctopus: 前面19盤似乎是各個階段的自戰 10/19 04:28

對，但是最後一盤不是二連星

推 bahamutjr: https://youtu.be/-Wh4CfsWDyM 10/19 08:22

→ bahamutjr: https://youtu.be/xOVwmCOX7S4 10/19 08:22

→ bahamutjr: 有新的系列影片上傳了 ZERO 對決 MASTER 10/19 08:23

https://www.nature.com/nature/journal/v550/n7676/extref/nature24270-s2.zip 這裡可以載棋譜，至於棋譜是什麼版本下的請參照論文

推 ilw4e: 天網要出現了XD 10/19 08:26

推 Yibooo: 《第一天下圍棋就上手》~AlphaGoZero著 10/19 08:32

《從零開始，三天超越全人類不求人》~AlphaGoZero著

推 oldTim: 推 10/19 08:32

推 enjoytbook: 右上那個定石不是黑棋自己挑的嗎xd 10/19 08:35

自己挑的不代表一定好啊

推 qweewqq: 是說Alphago要不要開放讓棋手練習這樣 10/19 08:43

推 ztdxqa: 感覺Zero的下法比較淳樸沒有像master那麼震撼 10/19 09:07

推 jaw13: 圍棋上帝... 10/19 09:18

推 ztdxqa: 唯有deepmind才能打敗deepmind 騰訊做那麼久也沒啥進步 sc 10/19 09:20

→ ztdxqa: ientist 跟 engineer的差別 10/19 09:20

※ 編輯: HeterCompute (118.160.20.68), 10/19/2017 09:24:43

→ vencil: 真是厲害 10/19 09:59

推 jpg31415926: 科學家或工程師又不相衝突...明明是開創者與追隨者 10/19 10:21

→ jpg31415926: 的差別 10/19 10:23

推 watermelon92: 終於來了！ 10/19 10:32

推 wz02022: 崩潰 10/19 10:37

推 oldTim: https://www.yikeweiqi.com/news/searching/36893/ 10/19 10:38

推 Austin820920: 真的是神了… 10/19 10:51

推 Rain0224: 前面的自戰棋譜人類棋手都還沒研究完，結果又有新的了@@ 10/19 10:52

推 s891234: ........我還以為他們團隊去做別的計畫，怎麼這妖怪還能 10/19 11:17

→ s891234: 進化啊Orz 10/19 11:17

推 lwei781: 反普歸真 10/19 11:50

推 lwei781: 之前就做了現在跑資料 10/19 11:52

→ lwei781: 這四月多就寫好了啊 10/19 12:13

推 oldTim: 投nature審稿也要審個幾個月八 10/19 12:14

推 yangsungo: alphago繼續這樣下去圍棋會有唯一解 10/19 12:20

→ yangsungo: 到時就會有記憶派棋手出現了 10/19 12:21

推 ilw4e: 唯一解還早，而且貼目數也有影響 10/19 12:33

→ kenwufederer: 不覺得圍棋會有唯一解，只有當前局面最好的一手 10/19 12:37

推 lwei781: 貼目影響應該爆大 10/19 12:38

→ kenwufederer: 我想，Zero就證明了這點 10/19 12:40

→ ssccg: 有唯一解也不見得記的住...對手又不會跟你一起下最佳解 10/19 12:40

→ ssccg: 還要把所有變化都記住才算唯一解 10/19 12:41

→ goldduck: 怎會有背最佳解會贏的可能 10/19 13:12

推 Yibooo: 先把國際象棋的惟一解找出來再來擔心這件事吧 -_- 10/19 13:33

推 cubec: http://tinyurl.com/y8z2l6db AlphaGo Zero的80局對弈棋譜 10/19 15:19

推 liaon98: 圍棋有唯一解 kenwufederer大你自己講的話實際上邏輯矛盾 10/19 16:45

→ liaon98: 你都知道每個局面都有最好一手那麼一盤局就是從頭到尾 10/19 16:46

→ liaon98: 每一步都是一個局面所以每一步都有最好一手 10/19 16:46

→ liaon98: 那麼這不就是在講圍棋有唯一解? 你前後自己矛盾 10/19 16:46

推 lyricslee: 有唯一解是確定的事 10/19 17:15

→ kenwufederer: 哪裡矛盾…最好的一手不代表只有這一手… 10/19 18:27

→ kenwufederer: 可能有兩手勝率相同 10/19 18:27

推 lwei781: 不是一定唯一啊 10/19 18:27

→ lwei781: 而且要看貼目 10/19 18:28

→ kenwufederer: 只要有打劫，就不會有唯一解 10/19 18:33

→ kenwufederer: 而且還要看對手的應法 10/19 18:34

→ kenwufederer: 只有等到能算盡變化的效能出現才有唯一解 10/19 18:35

→ kenwufederer: 不然這種演算法是不會有唯一解的 10/19 18:35

推 liaon98: 「只有等到能算盡變化的效能出現才有唯一解」 10/19 18:45

→ liaon98: 你自己上面是說「不覺得圍棋會有唯一解」 10/19 18:45

→ liaon98: 而不是說「這種演算法是不會有唯一解的」 10/19 18:45

推 kenwufederer: 圍棋本來就不可能有唯一解 10/19 19:44

→ kenwufederer: 原因已經說明了，圍棋規則就是這樣 10/19 19:45

→ kenwufederer: 就算兩個一樣的電腦都一樣有勝負問題 10/19 19:46

→ kenwufederer: 在沒有Zero，Master是最強 10/19 19:47

→ kenwufederer: 現在Zero出現，超越了Master之後 10/19 19:47

→ kenwufederer: 我就認為當下最佳解是Zero 10/19 19:48

→ kenwufederer: 至於唯一解，是給計算時間一年一步的Zero嗎？ 10/19 19:48

→ kenwufederer: 圍棋不是數學，如果你不能理解這個 10/19 19:49

→ kenwufederer: 就繼續堅持有唯一解，不能說你的理念有錯 10/19 19:50

推 staristic: 我說k大，你要不要去唸一下基礎的賽局理論 10/19 19:50

→ kenwufederer: 但必須說在現今圍棋規則下不可能 10/19 19:50

→ staristic: 圍棋絕對是數學的一部份 10/19 19:51

→ kenwufederer: 沒有唯一解是規則造成的，不是其他原因 10/19 19:51

→ kenwufederer: 連圍棋是數學的一部分都出來了… 10/19 19:52

→ kenwufederer: 我只是想說明這些勝負規則是人定出來 10/19 19:52

→ kenwufederer: 至於圍棋跟數學的關係，願聞其詳 10/19 19:53

→ kenwufederer: 數學也沒有唯一解，都是目前最佳 10/19 19:53

推 staristic: 圍棋本質就是賽局啊，賽局在數學上是一門分支 10/19 19:54

→ kenwufederer: 會覺得唯一解就是因為目前受限的原因 10/19 19:54

→ staristic: 若圍棋不能被數學所描敘，AlphaGo根本就做不出來 10/19 19:55

→ kenwufederer: OK，圍棋跟數學的關係是我錯了 10/19 19:55

→ kenwufederer: 但我只是想說明圍棋一定有更上層次 10/19 19:55

→ kenwufederer: 如同Master跟Zero一樣 10/19 19:56

→ kenwufederer: 何況他們之間還不是100%的勝率 10/19 19:56

→ kenwufederer: 但原因是因為人類棋譜干擾還是算法改變？ 10/19 19:56

→ kenwufederer: 這點我沒辦法確定，可能連他們工作人員也不能保證 10/19 19:57

→ staristic: 沒什麼更上層次啦，圍棋之神也就是棵超大的賽局樹而已 10/19 19:57

推 Seikan: 圍棋不是拓樸學的一種嗎？廣義來說算是數學吧？ 10/19 19:57

→ staristic: 困難點是無法證明我們的更好一手是真正的更好 10/19 19:58

推 OilCy: 圍棋很偉大但是跟數學比較太渺小了..怎可能不是數學的一環 10/19 20:29

推 oldTim: 圍棋有唯一解可以用策梅洛定理(Zermelo's theorem)來證明 10/19 20:44

→ oldTim: 策梅洛定理:在二人的有限遊戲(即完成遊戲下的步數有限)中 10/19 20:45

→ oldTim: 如果雙方皆擁有完全的資訊，並且運氣因素並不牽涉其中 10/19 20:45

→ oldTim: 那先行或後行者當一必有一方有必勝/必不敗的策略 10/19 20:46

→ ssccg: 圍棋程式是在降低複雜度找最好的近似解，相對於整個樹是更 10/19 20:58

→ ssccg: 下層次，本來就不是用這種演算法在求唯一解 10/19 21:00

→ yys310: AG:0 不知道pair go還有沒有幫助 10/19 21:26

推 joejoejoe: RL的演算法只是在Approximate最佳解而已吧 10/19 23:13

推 joejoejoe: 我想最佳解是存在只是幾乎求不出來也無法證明已求出 10/19 23:16

推 Rueyh: 星位被點三三 Zero給的答案是立四子搶先拆邊 10/19 23:26

→ Rueyh: 小飛被尖衝直接手拔大概又要開始被模仿一陣子了 10/19 23:27

推 tlchen: 必勝必敗跟唯一解可差多了 10/19 23:41

推 jamesho8743: 圍棋本質基本上跟井字遊戲沒有任何不同只是它的變 10/19 23:42

→ jamesho8743: 化是天文數字在上帝或計算力非常高智慧體眼中也不過 10/19 23:42

→ jamesho8743: 是一盤無聊的井字遊戲 10/19 23:42

→ tlchen: 在固定貼目下, 黑棋或白棋或必勝的策略, 但這不等同於唯一 10/19 23:43

→ tlchen: 假設黑棋是必勝好了,也不是在361位置中只有一個位置必勝 10/19 23:44

→ tlchen: 除去對稱性,黑棋必勝的第一手不一定只有一個 10/19 23:45

推 jamesho8743: 它就簡單的有最強應手能讓你輸最少（或羸最多）只是 10/19 23:46

→ jamesho8743: 最強應手會有很多很多 10/19 23:46

→ tlchen: 即使以勝多少來當標準,也可能有好幾個第一手可以勝最多 10/19 23:47

推 jamesho8743: Tlhen 説法正確 10/19 23:48

→ tlchen: 另外,我對於完全沒用到人類圍棋知識,我是很懷疑.之後找時 10/19 23:48

→ tlchen: 間去看看論文 10/19 23:48

→ tlchen: 之所以會懷疑,是有點訝異人類的三三定石,Alphazero也這樣 10/19 23:49

→ tlchen: 去下.那些定石真的有到完美?或是不完美,但alpha-zero也剛 10/19 23:50

→ tlchen: 好找到這樣當它的最佳解? 10/19 23:50

推 jamesho8743: 演算法好的話沒必要用到人類知識這沒什麼好懷疑的 10/19 23:53

→ jamesho8743: 人類知識也一樣只是人類對局經驗累積而來 10/19 23:53

推 jamesho8743: 假設人第一手下星位神第一手也下星位不能說神是抄 10/19 23:57

→ jamesho8743: 人的也不能説人類經驗很重要真理總是殊途同歸只是 10/19 23:57

→ jamesho8743: 神跟alpha go 更接近真理走得更遠 10/19 23:57

→ AmibaGelos: 是真的沒用到人類知識,起始都是徹底隨機的. 唯一用到 10/20 00:01

→ AmibaGelos: 的是圍棋的旋轉鏡像對稱性. 其實master版跟0版就只差 10/20 00:01

→ AmibaGelos: 在master版有先用kgs棋局訓練過,而master版究竟訓練 10/20 00:01

→ AmibaGelos: 了多久論文裡也沒講. 蠻好奇同樣訓練60天會是誰強 10/20 00:01

推 jamesho8743: 某些基本定石一定也會有基本上神來也是這樣下因為 10/20 00:01

→ jamesho8743: 不這麼下鐵虧除非周圍配置有所不同 10/20 00:01

推 joejoejoe: 好奇有多少版友因為AlphaGo開始接觸RL.. 10/20 00:07

推 jamesho8743: 總之圍棋沒有唯一解但有數不盡的最佳解即雙方都最 10/20 00:12

→ jamesho8743: 強手但最強手有很多選擇但最後勝負差是相同的 10/20 00:12

推 birdy590: 有公布前期棋譜啊根本隨機亂下 10/20 00:55

推 birdy590: 下著下著人類歸納的很多棋理就慢慢出現了 10/20 00:58

推 hne: 就我對論文的理解，zero版和master版在演算法上還是有差異的 10/20 01:11

→ hne: 可以看做 zero 版在演算法上又做了純粹的強化，以此條件開始 10/20 01:12

→ hne: 從零開始自我訓練，訓練的強度上升比之前的版本快了很多。 10/20 01:13

推 birdy590: 論文有提到原本的演算法不適合完自我學習 10/20 01:16

推 hne: 對，因此, zero的版本更適合自我學習 10/20 01:17

→ birdy590: 兩個network合併準確率有下降但運算簡化有補回來 10/20 01:18

→ birdy590: 結果棋力反而變強亂猜的rollout也被捨棄 10/20 01:19

→ hne: 看完只有拜服阿，從強到更強超強爆強的感覺 Orz 10/20 01:19

→ birdy590: 一開始愛吃子慢慢學會圍地和厚勢 10/20 01:20

→ birdy590: 然後一些已知的定式被發現這時候就已經很強了 10/20 01:21

推 hne: 現在可以臭屁，我還可以贏學3小時的 alphago zero , lol 10/20 01:23

→ AmibaGelos: err其實只有差rollout跟feature,前者對訓練的影響是0 10/20 02:34

→ AmibaGelos: 後者差13倍但需要耗資源學規律所以很難說哪個比較好 10/20 02:34

推 ddavid: @tlchen 你只要想一下，人類的定石也不過就是從古至今從對 10/20 02:52

→ ddavid: 局或自我研究中累積下來的經驗不斷傳承下來，人類一開始也 10/20 02:53

→ ddavid: 是從零出發的 10/20 02:53

→ ddavid: 現在AlphaGo Zero不過就是靠高速大量對局在以天計的時間內 10/20 02:53

→ ddavid: 排完了人類長久以來的研究得到一樣甚至超前的結果而已 10/20 02:54

→ ddavid: 而人類可以自豪的就是，以人類完成一局棋需要那麼久的時間 10/20 02:55

→ ddavid: ，能進化的速度如此之慢，然而AlphaGo還是證明了人類畢竟 10/20 02:56

→ ddavid: 長久的累積還是對了很多東西。不要因為被AlphaGo超越就開 10/20 02:57

→ ddavid: 始否定人類累積下來的東西，這事實上就只是人類研發出來的 10/20 02:58

→ ddavid: 新進化方式超越了人類以前的舊進化方式罷了 10/20 02:58

推 oldTim: 不過有看到一種說法，AlphaGO也有inductive bias，只是 10/20 10:03

→ oldTim: 剛好它的算法跟人類下棋的bias是同一路數，所以有可能某日 10/20 10:05

→ oldTim: 來了個外星人用全新的算法避開AlphaGO和人的bias達到更高 10/20 10:06

推 tlchen: 可能我太看清人類的能力了.所以,alphao zero所呈現的,我反 10/20 10:07

→ oldTim: 境界，也就是說現在Zero自學得出和人類類似的的定式未必能 10/20 10:07

→ oldTim: 證明這些定式就是正確無誤 10/20 10:08

→ tlchen: 而是驚訝人類的成果.至於說 alpha zero 多快就達到多高的 10/20 10:08

→ tlchen: 實力. 其實若是從下的局數來看, 而不是以時間來看,它或許 10/20 10:08

→ tlchen: 不見得那麼厲害 10/20 10:09

→ tlchen: 我當然不是說它不強,它強到沒有辦法去談.只是就學習來說 10/20 10:09

→ tlchen: 不該只用時間來說它比人類快 10/20 10:10

推 birdy590: AlphaGo 演算法目標只有一個, 就是要把會贏的方法記下來 10/20 11:50

→ birdy590: 它連在棋盤上亂填都沒有排除, 這樣要怎麼說有 bias? 10/20 11:51

推 aegis43210: 個人覺得alphago/zero一定還有死活問題 10/21 00:51

→ aegis43210: master還特別用個反master來消除master的死活問題 10/21 00:52

推 vaper: 一種自我冥想練功的概念，阿發狗快出來社交，不然會變宅宅 10/21 02:24

→ vaper: 變得多強不是重點，還要下贏人才能稱神 10/21 02:26

→ birdy590: zero 跟 master 不一樣沒剩下什麼是人類給它的 10/21 03:23

推 lwei781: Master 處理死活防輸 10/22 00:55

推 wadashi1: master已碾壓全部的人類,沒機會輸,而zero還碾壓master, 10/22 23:05

→ wadashi1: 一個神上面還有更高的神的境界,而且進步還沒有結束.. 10/22 23:06

推 lwei781: 七龍珠感 10/23 07:47