Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

作者staristic (ANSI lover)

看板GO

標題Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

時間Sat Nov 11 10:22:34 2017

原文恕刪我相信原po是真心很認真的想討論也很歡這討論的風氣但是，原po的問題卻得到一個幾乎大家圍攻的結果我來舉個例子說明為什麼大家會覺得原po在鑽牛角尖好了今天我們把問題換成排序假設有一群剛發明電腦的工程師，現在在建構最初的演算法他們試圖解決排書櫃的問題於是他們先試著模仿人類的排書的方法，比方說排「4, 5, 6, 1, 3, 2」的時候，人類會把 4,5,6 一起處理 (回憶一下人是怎麼處理書架上的書的) 於是他們弄出了一套演算法，但是效能不怎樣對應圍棋AI的例子，傳統的Zen，CrazyStone 就是這樣的算法然後突然有一個天材，發現了 Bubble Sort 一個電腦按自己的方式排，又借鏡了一部份人類排序的經驗(一直把小的往前丟)的算法相當於 AlphaGo 出現了最後，另一群天材把這個演算法優化成 Quick Sort 一個人類在現實中排書絕對不可能用到的演算法相當於 AlphaGo Zero (小朋友學棋再怎樣也不會教他從亂丟開始，對吧？) 發了篇論文說明他們整個演算法共同的地方只有一段「交換位子」的函式其它都不一樣換成 AlphaGo ，就是告訴你，我都是用機器學習作方法，但是其它都不一樣然後原po現在的質疑在一般人的眼中看起來像是： Quick Sort還是用到了人類排序書櫃的經驗！當然大家會覺得莫名有人會有 Quick Sort 來排書架嗎？大概是這樣 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.185.153.145 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510366956.A.69B.html

推 jackcselab: 我覺的是他一開始舉了一個錯誤的例子(棋局停止)，突 11/11 10:29

→ jackcselab: 顯他不了解圍棋規則，導致後續討論就充滿了火藥味了 11/11 10:29

→ jackcselab: 進而讓他的原意失焦了 11/11 10:29

推 HeterCompute: 風向就是從那個棋子不能自殺的時候被帶起的QQ 11/11 10:54

推 tetratio: 我真的有用quick sort排過一大堆亂掉的書... 11/11 11:49

→ tetratio: 不過大概不影響你的舉例啦 11/11 11:49

推 HeterCompute: 人類可以學sort，但是不能學神經網路，有種來把 11/11 12:08

→ HeterCompute: 神經網路背起來啊 11/11 12:10

推 ztdxqa: XD 這舉例好傳神耶但原po還是不懂quicksort阿 11/11 12:12

→ HeterCompute: t大都說數學統計出身會learning，說他不會QS會不會 11/11 12:17

→ HeterCompute: 太侮辱人 11/11 12:17

推 s891234: 人類用Quick Sort幹嘛啦XDDD只會比較煩而已 11/11 12:58

推 ForeverOrz: 譬喻不錯但原po懷疑是有理也沒錯 11/11 14:04

推 hannocps: quicksort是啥…是否可以解釋一下 11/11 14:11

推 HanaYukii: 隨機取中點小丟左大丟右遞迴到每區剩一個 11/11 14:32

→ jpg31415926: 人類比較偏向insert或select不過不影響你的舉例XD 11/11 16:36

推 oldTim: 推，好比煉金術士和化學家的關係，化學家有參考煉金術士 11/11 17:33

→ oldTim: 的實驗結果，用完全不同的一套理論體系去篩選、解釋 11/11 17:36

→ oldTim: 最終產生新的一套科學事實，裡面雖有部分認定煉金術士經驗 11/11 17:44

→ oldTim: 也符合科學事實，但這顯然跟認同煉金術士的經驗是兩回事 11/11 17:46

推 tlchen: 板主舉的例子,從 Bubble Sort 變成 Quick Sort, 是屬於我 11/11 18:46

→ tlchen: 說的模型不同. 而不是 master 與 Zero 的最大差別在參數優 11/11 18:47

→ tlchen: 化 11/11 18:47

→ tlchen: 參數優化, Zero 不同於 master, 沒用到人類棋譜,這沒爭議 11/11 18:48

→ tlchen: 但在模型上, 並沒有太大的改變 11/11 18:49

→ tlchen: 我要質疑的是, 這模型是否用到人類圍棋知識 11/11 18:49

呃… 就算沒讀過論文，也應該看過相關報導吧兩者用的模型天差地遠詳細要討論要另開一篇文，請自行爬文或google

→ capita: 模型差別很大啊 11/11 18:51

→ Uizmp: 我可不可以問一下tl一直要追究這個問題的原因是甚麼? 11/11 18:53

推 oldTim: Zero只用一個policy network這樣模型的差別還不夠明顯嗎? 11/11 19:07

※ 編輯: staristic (111.185.153.145), 11/11/2017 20:56:37

推 HeterCompute: master哪有跟zero模型天差地遠 11/11 21:05

推 HeterCompute: 差rollout和一開始是監督學習而已，神經網路一樣 11/11 21:09

還有原本兩個網路(價值網路、走子網路)變成一個不是？我個人會覺得差非常大的原因在此。兩個變成一個@@ ※ 編輯: staristic (111.185.153.145), 11/11/2017 21:14:18

推 HeterCompute: 你搞錯了吧，master就已經合併了 11/11 21:14

這樣的話我前面說的天差地別確實要收回來我也沒辦法再說什麼了 ※ 編輯: staristic (111.185.153.145), 11/11/2017 21:17:17

推 birdy590: 其實主要差別只有訓練吃的棋譜不一樣 11/11 21:54

我有回去找文章基本上這邊是我搞錯了Orz ※ 編輯: staristic (111.185.153.145), 11/11/2017 22:22:41

→ CGary: 一樣的他們只是選用了不同參數給了不同資源因為他們想 11/12 00:35

→ CGary: 試試看Master的模型能不能通用但是我覺得實作的內部可能還 11/12 00:36

→ CGary: 是差很多因為如果事情只是rollout跟開始的監督部分就不會 11/12 00:36

→ CGary: 需要請aja把有內建圍棋知識的code拿掉了想必那邊有很多細 11/12 00:36

→ CGary: 微的優化是他們沒講（也不開源，所以應該就是不會講了） 11/12 00:37

→ staristic: 意思是這部份反正他不開源，只能相信Deepmind的宣佈 11/12 00:46

→ staristic: 再吵也沒意義，對吧？ 11/12 00:46

推 HeterCompute: 就算他是先射箭再畫靶，你也沒辦法啊XD 11/12 00:48

→ CGary: 這個其實有個方法就是別人照著DM的paper實作做不出來攻擊 11/12 01:28

→ CGary: 他們, 但目前沒有太多公司有這麼強的運算資源做這種驗證... 11/12 01:28

推 birdy590: 大概只有騰訊出的起願不願意花就難講了 11/12 01:36

→ birdy590: google自己搞TPU就先省一大筆 11/12 01:36

→ aegis43210: 光訓練一個20block res-net，沒百張1080ti就免談... 11/12 03:58

→ OverInfinity: master的時候還是有兩個網路啦 zero才只有一個 11/12 23:40

推 sunev: 樓上可參考HeterCompute的筆記：[情報] 黃博士今日演講內容 11/13 00:22

→ OverInfinity: 感謝，確實論文也是這樣寫的沒錯 11/13 01:35

→ staristic: 我發現搞錯的不止我一個，稍微得到一點安慰XD 11/13 01:51

→ OverInfinity: XDD 11/13 01:55

推 elfkiller: 其實我不懂質疑論文標題有甚麼意義...... 11/16 02:01

→ elfkiller: 當然是可以質疑拉...... 頂多就是用字不精確罷了 11/16 02:02

→ elfkiller: 給人家的感覺就是好像網路筆戰抓錯字一樣...... 11/16 02:03