看板 GO 關於我們 聯絡資訊
簡單提一下今天黃博士演講重點 演講標題是深度學習與強化學習的勝利 認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾 黃博士對於一開始擊敗樊輝就發nature有些不解,我們要挑戰李世石結果把所有技術都透漏給所有人,但deepmind的想法是我們需要分享技術讓世界一起進步 google對alphago團隊最大幫助是TPU 認為Master已經完美解決李世石第四盤的bug,解決方式與神經網路架構(dual res)和訓練都有關,並且以他多年的電腦圍棋經驗與測試過後,認為不會再出現此類bug Master是20block res-net,並改進了training pipeline和MCTS,也解決了模仿棋和循環劫(沒說怎麼做),能讓lee版本3子並超過50%勝率 master年初60連勝每一步4-8秒,在台灣,吃泡麵配黑松沙士下的,是黃博士積極鼓吹要出來測試,Hassabis說要低調並使用韓國國籍,一開始不得透漏身分 Hassabis說要挑強的下,但是第一天職業沒人願意跟0勝0負的下,都被拒絕,等到第一天10連勝之後第二天開始拒絕別人邀請 master下的時候可以看勝率隨步數的圖,基本上50手之前斜率很高並且確立極大優勢,唯一例外是柯潔烏鎮第二盤 4月的時候已經有zero,但由於要發nature所以不能拿來下 當初開發zero沒預料到會超過master master年初開發完畢之後,zero由其他人負責開發,黃博士繼續想方法增強master zero不是放在那邊增強學習就會變強,中間需要做很多優化,否則有bug不會進步,其中一個重大bug發生在第三天(紀錄人表示:所以看來絕藝有得忙了 AntiAlphaGo,不是像大家想的那樣有新的技術,就是左右互搏,也不是gan(生成式對抗網路) master是否被人類棋譜拖累?答案是不確定,因為master訓練時間較短,deepmimd也沒有針對同等條件去比較。 以上,有其他疏漏請其他人補充,並歡迎轉載,但請說明作者是Hetercompute ----- Sent from JPTT on my Samsung SM-A710Y. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.127.9 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1510291395.A.4F4.html
staristic: 第三天?這麼巧就是達到李世石版的那時候? 11/10 13:28
CGary: btw, AGZ 不會 open source. 11/10 13:42
yys310: 嗚嗚 好想聽現場 11/10 14:11
jackcselab: 這篇訪問算是證實了DZG作者的猜想,master是用比較小 11/10 15:12
jackcselab: 的網路才輸給zero,master跟zero在相同網路下并沒有 11/10 15:12
jackcselab: 明顯的優劣 11/10 15:12
jackcselab: 上面講錯,應該說master跟zero在相同條件下誰優誰劣 11/10 15:14
jackcselab: 還未知 11/10 15:14
jackcselab: 另外我有個疑問,記得當初有提到,master只計算到20步 11/10 15:16
jackcselab: ,這個20步跟resnet的20-block有關係嗎? 11/10 15:16
vencil: 推 11/10 15:17
yys310: 柯潔也真的是夠神了 11/10 15:22
CGary: 很難說是證實了 其實Aja在被問的時候不是這樣說的 他只是說 11/10 16:47
CGary: 不能因為AGZ的強大 就說人類的知識本質沒有用處 只能說透過 11/10 16:48
CGary: Zero可以真的"從零學會", 但他們不能評估這兩者用同樣的計 11/10 16:49
CGary: 算量 Master 不會輸 因為在回答過程中aja 不止一次說他們非 11/10 16:49
CGary: 常驚訝Zero的訓練結果(本來以為是根本不可能贏過Master,沒 11/10 16:50
CGary: 想到很快就碾壓了) 11/10 16:50
zeat: 在台灣,吃泡麵配黑松沙士下的XDD 11/10 19:24
wadashi1: 太辛苦了(算沈迷嗎?) 都沒有出門或自己煮好好的吃個飯 11/10 21:54
aegis43210: zero的演算法也是一直優化才比master強 11/10 23:41
aegis43210: 那個人不看好騰訊能完整複製zero的棋力了 11/10 23:42
oldTim: AlphaGO與其說是科學上的突破,不如說是工程上的奇蹟 11/11 00:07
staristic: 看硬體怎麼進步吧,硬體追得上的話說不定20年後變大學 11/11 00:08
staristic: 機器學習的學期大專題 11/11 00:08
cubec: AlphaGo Zero 只用了三天,就走過人類幾千年圍棋研究的歷程 11/11 04:24
seaEPC: 很佩服deepmind分享知識的作法 11/11 07:57
sunev: 所以master就已經只用一個神經網路了嗎? 11/11 14:34
HeterCompute: 對,只用Res-Net 11/11 17:32
tlchen: 我很早就提,我們不能只看三天很短,但三天中,它進入高品質 11/11 18:53
tlchen: 的棋局,比人類幾千年來的高品質,其實應該是不知多多少倍 11/11 18:54
Uizmp: 這也難說,人類不在對弈的時候, 有些人腦中依然在運算這些 11/11 18:59
Uizmp: 只是沒有下出來, 或者下出來沒有留下棋譜 11/11 18:59
Uizmp: 只能說人類的資訊整合能力與計算能力遠輸於AG 11/11 19:03
birdy590: 三天看來很短 但那已經累積上百萬盤的樣本了 11/11 19:16
birdy590: 沒有google這種資本 一般開發者根本不可能這樣設計 11/11 19:17
wadashi1: Zero用的設備就像進入精神時光屋一樣,1700年用40天達成 11/11 19:22
birdy590: 人類歷史上所有棋局加起來也不過零頭吧 質也一定輸 11/11 19:24
ddavid: 主要是人類並不是一個整體,有大量的運算資源被浪費在各自 11/12 02:56
ddavid: 算各自的東西,再來就是下完一局棋以評估所花時間太久 11/12 02:57
lwei781: 人類是各自學 流派又不交流 11/12 13:07
aegis43210: alphago lee是13block,Master是20block 11/12 19:44
aegis43210: zero則有20block和40block兩種版本 11/12 19:44