Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

作者tlchen (台灣加油)

看板GO

標題Re: [新聞] 黃士傑返台分享AlphaGo Zero開發過程

時間Sat Nov 11 03:13:21 2017

※ 引述《capita (小明)》之銘言： : 改用 ResNet 因為是最當紅的神經網路模型，大家都說好，到處拿第一， : 只要是做機器學習，不改來用看看才奇怪，這跟圍棋一點關係也沒有。 : 或是三維的圍棋，都可以照樣修改後讓電腦去自行修煉成大師。 : 在一些細部結構上，DeepMind 也試過不同的參數，其中比較好的結果， : 才變成現在的版本，這種工程調整，跟人類的圍棋知識也沒有關係。 : 所以這不是圍棋專用的算法，如果這樣還要說是用到了人類圍棋知識， : 那就隨便他了。很抱歉, 又來礙眼了. 如果認為我是來亂的, 那請退出, 不要浪費您的時間. 很多分散在推文可能講不清楚, 容我用最後一篇寫跟這主題相關的. 但如果板主認為這樣的文章不適合出現在這板, 請刪掉或來信叫我自刪. 首先很簡單的澄清, 我已經有兩個兒子了, 大概很難被定義成屁孩. 兒子大到覺得老爸陪他去學棋是丟臉的事. 原本跟他說, 我載你去, 之後又要來接你. 不如停個車, 我也付錢一起學一下, 卻被斷然拒絕. 去年人機大戰開始關心圍棋, 當時第一次聽到李世石這個名字, 就知道我有多菜. 人機大戰時是希望機可以贏, 應該不會有什麼人類尊嚴的心結. 以往陪著兒子去比賽, 在場邊無所事事一天, 今年夏天索幸自己也報名. 某次僥倖升段, 但絕對是全台最水的段位棋士, 問題只在能不能偷加個 "之一" 跟板友們程度差太多, 但還是略懂一點點, 不是什麼都不知道. 數學統計出身, 也做一點 learning. 因為數學的訓練, 讓我對很多事很小心, 很在意. (雖然在這板是被認為沒邏輯) 一個訊息有沒有被用到, 有沒有乍看沒用到, 但實際有用到, 這是我在意的. 如板主建議, 應該要先把定義講清楚, 再做討論. (這其實我很喜歡, 完全符合數學模式. 向來是被抱怨太死板, 講那什麼定義.) 什麼是 "人類圍棋知識" ? 其實論文題用的是更強的 human knowledge, 但我相信它只是把後面的 in GO 略掉, 應該是那意思. 有網友提到, 在 AI 界的定義, 棋譜不算人類圍棋知識. 但從 deepmind 自己也是 AlphaGo Zero 才稱沒用到人類知識, 他們應該也是把棋譜當做是人類圍棋知識. 對我來說, 除了規則外, 人類了解規則後, 對這規則所演生的想法, 成品, 表現, 都歸類為人類圍棋知識. 棋譜沒有直接告訴你棋理, 但它是棋理的展現. 從棋譜可以看到人類怎麼下, 可以歸納人類怎麼想. 用了棋譜的資訊, 說是沒用到人類圍棋知識, 或許對 AI 界的術語是那樣, 但我相信對於大部份白話的用語, 不是這樣的. 我若打了一堆本因坊秀策的棋譜, 我能說我沒用到本因坊秀策的知識? 以下討論, 就局限在我個人的定義, 不認同的, 也沒有必要繼續看下去. 如 AlphaGo Zero, 一個方法, 程式, AI 等, 它通常有一個架構, 模型, 或是流程. 而再細看, 其間有很多要被微調的參數, 才能讓這方法有優異的表現. 現在有幾個讓人關心的問題, 參數的估計有沒有用到人類圍棋知識? 模型架構的選取有沒有用到人類圍棋知識? 一個沒有爭議的是, AlphaGo Zero 在參數優化估計上, 它沒有用到人類圍棋知識. 因此, 如果說法是, 在 AlphaGo Zero 的架構被決定後, 接下來它不需要人類圍棋知識就可以變如此強, 這就也完全沒有爭議. 但它下的標題是: Mastering the game of Go without human knowledge 我不知道大家怎麼解讀這個句子. 我個人是認為 (可能您就不這樣認為) 不懂 AI 不懂圍棋的大眾, 會以為有個 AI, 在只知道規則下, 不需要藉助任何人類圍棋知識, 就能精通圍棋. 若是上述的陳論, 那我就無法同意了. 優化的過程, 除了參數的優化, 模型的選擇也是重要的步驟. 參數的優化沒用到人類圍棋知識, 沒有爭議. 但模型選擇呢? 有人說, 那只是工程上的問題. 這我是完全無法認同的. 模型的選取, 直接影響整個方法的表現, 通常不只是快或慢而已. 解很可能不一樣的. 至於我這篇一開始引的. 是的, ResNet 當紅, 拿來試試是自然的. 問題是怎麼試? 不用試了, 就是它, 直接開始自戰, 是嗎? 我想有經驗的人不會這樣做. Deepmind 也沒這樣做, 它還是先測試了學人類棋譜的 master 板本, 才再去試自戰的. 引個 https://tinyurl.com/y85ukxhn 文末的話: "The clever insights making Zero better was due to humans, not any piece of software suggesting that this approach would be good. I would start to get worried when that happens." 我想說的是, 在這新聞報導出來, 很多人會被誤導 AI 可以僅憑規則, 無師自通. 但它其實沒有被證實 (下一段補充) 那麼厲害. 它仍然是需要人類圍棋知識幫它打好架構, 引導它往哪方向走. 對我來說, AlphaGo Zero 自戰學習, 這所謂的學習, 其實只是更廣義的計算. 電腦計算比人類強, 這大家已經沒疑問. 而現在的學習, 其實只是 "隨機計算", 這個電腦更該比人強. 但電腦程式的角色其實廣義上仍然是幫人類算人類無法自己算的地方, 它並沒有自己學習. (關於上一段說要補充的. 或許 AI 真有這個能力, 但是, deepmind 似乎不是走這樣的流程) 另外本文一開始引的也提到, 這不是圍棋專用的, 所以不算是圍棋知識. 我同事目前在做, 當有 incomplete or delayed 訊息的遊戲, ResNet 是否也能做得好? 另外像是加入隨機, AI 無法得知最後成敗是因運氣還是功力, 那是否會讓它不易學習? 或許有人可以歸納出圍棋是屬於怎樣的遊戲, 而這樣的遊戲, 用 ResNet + MCTS 都可以做得好. 但這是根據規則, 了解這個遊戲的特性, 這難道不也是一種人類的圍棋知識? 是 AI 自己能懂的嗎? 有人把這篇看完了嗎? 我非常佩服你. 我覺得我若是讀的人, 可能也看不完. 我想我的想法都陳述了, 這是最後一篇, 相關話題不會再發文污染這個板. 若有興趣繼續討論的人, 歡迎私信討論. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.74.113 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510341206.A.C6C.html

→ khaos: id真眼熟，好像以前在LGS見過耶 11/11 07:12

→ khaos: 啊看錯了 11/11 07:12

→ Eriri: 其實大家都解釋的很清楚了是你自己鑽牛角尖定義又跟別人 11/11 07:18

→ Eriri: 不同甚至快接近無限上綱了解這遊戲的特性後然後做些對工 11/11 07:18

→ Eriri: 程上比較方便的事跟大家在這裡所謂的是否用到人類知識根 11/11 07:18

→ Eriri: 本是兩碼子的事... 11/11 07:18

→ denniswu: 人家nature都accept了你還要自己認為？ 11/11 07:38

→ denniswu: 還是說要電腦自動產生程式碼才是無人為？ XDD 11/11 07:39

→ CGary: 如果要說nature accept這件事其實跟他提的問題無關不要因 11/11 08:24

→ CGary: 為nature接受這篇論文就說別人自以為是比較好的... 11/11 08:24

推 CGary: 這個問題其實當場有另一位講者有質疑黃博士（也是另一位AI 11/11 08:27

→ CGary: 的高手）但黃博士的看法是可以接受的他認為這個過程中所 11/11 08:28

→ CGary: 取得結果的過程有圍棋的影子但是實際上採用在Zero的方式已 11/11 08:28

→ CGary: 經完全沒有可以搬到別的遊戲上直接使用... 11/11 08:28

→ CGary: 另外,AGZ其實真沒一開始跟Master對戰學會在演講中黃博士有 11/11 08:29

→ CGary: 說他們採用resnet在AGZ跟Master是完全不一樣的參數而且投 11/11 08:30

→ CGary: 入的資源也不是一樣的因為他們一開始就不認為Zero可以有那 11/11 08:31

→ CGary: 麼快「學會」下棋加上要發nature 不能公開, 所以跟柯潔對 11/11 08:31

→ CGary: 戰還是發表的這篇分成兩個團隊各自進行另外原Po你說的問 11/11 08:32

→ CGary: 題中用用看不用試這件事其實很可能就是真的因為這幾年搞 11/11 08:33

→ CGary: 理論的人普遍認為搞工程的人對於這些practice背後理論證明 11/11 08:34

→ CGary: 底子不足...XD 11/11 08:35

推 HeterCompute: 昨天有說Deepmind團隊當初做Zero，就是請黃博士把 11/11 09:12

→ HeterCompute: 所有Zero有用到人類知識的部分的code一行一行刪除 11/11 09:12

→ HeterCompute: 剩下給另外一個團隊搞，所以就看你相不相信黃博士(? 11/11 09:13

我相信黃博士, 而從他這段話, 更讓我覺得 AlphaGo Zero 是承繼 AlphaGo master 的主要架構, 只是把用棋譜訓練參數的部份拿掉.

推 jackcselab: 所以AGZ的程式主要不是Aja負責的,所以nature論文他才 11/11 10:31

→ jackcselab: 會排到第五去了 11/11 10:31

推 JoeyChen: 請問那zero目前的程式是for遊戲還是已經for所有purpose? 11/11 11:00

推 HeterCompute: For general complete information game. 11/11 11:06

→ wadashi1: 所以我才會希望隨便延用到任何的棋局遊戲像象棋來證明.. 11/11 11:34

推 birdy590: 那同樣還是工程決定目前不存在通用的架構 11/11 11:58

→ birdy590: 所以下一步才會是即時戰略因為根本上差很多 11/11 11:59

→ birdy590: 如果堅持要一魚n吃才算那連人類也做不到 11/11 12:00

→ birdy590: 有人下棋和打麻將思考的方式會一樣嗎？ 11/11 12:01

推 wadashi1: 打麻將牽涉到記憶跟摸牌出現機率的問題,電腦優勢太多了 11/11 12:09

推 birdy590: 優勢太多但不是穩贏因為有無法控制的因素 11/11 12:14

→ birdy590: 這是遊戲規則不同可能造成的影響 11/11 12:14

推 toulio81: 棋譜本來就算人類圍棋知識啊...誰說不算的？ 11/11 12:19

推 birdy590: 棋譜廣義上是但規則不是 11/11 12:20

→ birdy590: 人類按照規則測試挑選適當的架構這屬於工程範圍 11/11 12:20

推 toulio81: 至於模型選擇，可以自己用不同模型對下，那個勝率高就 11/11 12:21

→ toulio81: 選哪個吧？為啥一定要用人類棋譜驗證？ 11/11 12:21

→ wadashi1: 看到最後面....嗯!遊戲創始者跟規則設定者,雖然擁有一開 11/11 12:29

→ wadashi1: 始的所有遊戲的規則,但並不一定是玩得最好的,甚至有可能 11/11 12:30

→ wadashi1: 在旁人看來不太會玩遊戲,因為他沒深入遊戲去練習技術。 11/11 12:30

噓 s891234: 棋譜當然是人類圍棋知識啊 11/11 13:01

推 oldTim: 原po要將圍棋知識定義的如此廣我沒意見，但試想一個情況 11/11 17:15

→ oldTim: 如果一個記憶力很好的小朋友只是背了很多棋譜，沒有任何 11/11 17:16

→ oldTim: 定石、死活、厚薄的觀念，你會認為他有很豐富的圍棋知識 11/11 17:18

→ oldTim: 還是只是有驚人的記憶力? 更何況AlphaGO初版選擇輸入棋譜 11/11 17:21

→ oldTim: 時並沒有像ZEN一樣特別挑高手棋譜輸入，受人類圍棋觀念 11/11 17:22

→ oldTim: 更小 11/11 17:23

※ 編輯: tlchen (140.109.74.113), 11/11/2017 18:41:02

→ mothertime: 你沒有規則，就會產生AI沒氣卻不提子的狀況 11/11 21:00

→ mothertime: 所以規則是必要的 11/11 21:00

→ jpg31415926: 沒規則怎知道你在玩五子棋黑白棋還是圍棋 11/12 00:26

推 tcn1john: 啊就Complete information game了還在麻將 11/12 08:21

噓 peterhuo: 沒規則還想教孩子啊ＸＤ真Ｘ孩 11/13 19:11