→ vythxmythx: 內文錯很多吧... deepmind帳號是黃博士自己下的 所以 01/09 21:39
→ vythxmythx: 才沒有很驚人 01/09 21:39
推 owen91: 養虎為患 這鳥結論 01/09 22:03
推 sean920909: 是2個都有在下 01/09 22:19
→ zelkova: 黃博士是用deepmind很久 不過後面幾場似乎有用阿法狗測試 01/09 22:57
→ zelkova: 不過黃沒出來闢謠 也沒人去問就是了 01/09 22:58
→ semihumanity: AlphaGO:人類頂級棋譜?ZZZzzz 01/09 23:12
噓 ggoutoutder: ㄏㄏ 又有人開始消費了 01/10 00:05
推 cute64627732: 推捐錢給弱勢,推支持後輩柯傑~ 01/10 02:56
→ ddavid: 新版早就不吃人類棋譜自己練了,這篇還是算了吧 01/10 03:49
→ moonlind: "AlphaGO這麼強 是吸收了我們的頂級棋譜" 01/10 10:23
→ mrbigmouth: 「新版是沒吃過人類棋譜的版本」<=雖然很多人都這樣猜 01/10 11:03
→ mrbigmouth: 了 但官方有宣布確認過嗎? 01/10 11:04
→ mrbigmouth: master就是當初說要嘗試完全不吸收棋譜自己練的版本? 01/10 11:04
→ birdy590: 這事去年老闆和 Aja 都講過... 時間這麼長應該是做完了 01/10 11:17
→ birdy590: 從理論上來看 初始階段餵的人類棋譜的確可能變成污染 @@ 01/10 11:17
噓 blackwindy: 還在人類棋譜 就訓練資料來看根本連0.1%的比例都沒有 01/10 11:58
→ blackwindy: 輸了就開始各種找理由 也太好笑 01/10 11:58
→ semihumanity: 我個人認為V25是V18練上去的啦 01/10 12:39
→ moonlind: 反正就"應該"做完了 "大概"是了 "這些招法沒見過"所以 01/10 14:04
→ moonlind: 是自我版 根本都是猜的 01/10 14:05
→ moonlind: 看了AlphaGO的下棋評估方式就會發現 要做純淨版絕對不是 01/10 14:06
→ moonlind: 那麼簡單 光是"何謂勝利" 你沒有樣板給電腦看 也說不清 01/10 14:07
→ moonlind: 光是AG自我對奕 因為勝率而修正落子點 形成沒看過的下法 01/10 14:09
→ moonlind: 就是非常常見的事 隨著時間人類譜的影響降低也可預見 01/10 14:10
→ aaaba: 電腦判斷何謂勝利還真的不用樣板就做得到,只要會填子就好 01/10 14:15
→ moonlind: 不是最後的勝利啦 是"某局面下"的勝負判斷 01/10 14:41
→ moonlind: 正確的話 因為自我無限對奕的方法 AG以前的AI就用過了 01/10 14:46
→ moonlind: 效果都沒有AG的好 被殺得不要不要的 假設拿掉人類譜 01/10 14:47
→ moonlind: AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別 01/10 14:47
→ aaaba: 拿掉人類譜還有兩張空白有待訓練的網路 01/10 14:51
→ moonlind: 那要這麼說 AG就只是錢砸出來的 誰的電腦連得多 就越猛 01/10 14:54
→ aaaba: 錢是必要條件,不是充分條件 01/10 14:55
→ moonlind: 我的意思是AG目前的高度 人類譜佔了一半 抽掉了=頓失五 01/10 14:57
→ moonlind: 成功 一年時間 大概跟刑天等等齊頭 01/10 14:58
→ aaaba: 我現在沒在討論master有沒有抽掉人類譜,這點等他們自己公 01/10 15:06
→ aaaba: 佈就好,我只是個看熱鬧的。剛開始我是不了解你怎麼推論出 01/10 15:06
→ aaaba: 沒有抽掉的,現在比較明白了 01/10 15:06
→ moonlind: 其實我本來也是覺得自我對奕好像很厲害 可是看過AG的下 01/10 15:20
→ semihumanity: 有人覺得圍棋老師讓你棋力從30級變業餘初段是在污染 01/10 15:20
→ moonlind: 棋介紹後才知道原來並不是我想的那樣 01/10 15:21
→ semihumanity: 你的棋藝? 01/10 15:21
→ birdy590: 看起來上面幾位並沒有弄懂人類棋譜的作用是什麼 01/10 16:03
→ birdy590: 常常被拿來濫用的"左右互搏"也一樣 和一般人想像兩碼事 01/10 16:04
→ birdy590: AlphaGo 厲害的地方是把舊有的兩套方法湊在一起 01/10 16:05
→ birdy590: moonlind 好像以為人類譜很重要? 根本不是那麼回事 01/10 16:07
→ birdy590: 拿人類譜去餵 DCNN, 結果會是讓它的反應比較接近人類 01/10 16:09
→ birdy590: 網棋通常沒有細算 離最佳解的距離應該會比它自己算還遠 01/10 16:12
→ birdy590: 就拿上面的疑問來講 DCNN並不需要知道"何謂勝利" 01/10 16:17
→ birdy590: 它只負責給出選擇 MCTS 自己會驗算, 各自做自己擅長的事 01/10 16:19
→ moonlind: 把舊有的兩種方法湊在一起對啊 其中一邊是餵譜餵出來的 01/10 16:32
→ moonlind: 另一邊是亂走走出來的 兩者合一 發現能屌打以前亂走版的 01/10 16:32
→ moonlind: 現在假設餵譜那邊 用的都是亂走出來的譜(純淨) 那不就等 01/10 16:33
→ moonlind: 於從頭到尾都是亂走版? 這樣還能達到AG的高度嗎 01/10 16:34
→ semihumanity: 理論上可以,只是要訓練更久。 01/10 16:37
→ moonlind: 究竟是多久 其實根據我貼的那個 棋局越靠前 吃譜的份量 01/10 16:39
→ semihumanity: 只是自己亂下,想要無師自通,基本上是浪費時間 01/10 16:40
→ moonlind: 越重 不正表示 棋局越靠前 經驗法則越重要 而電腦要怎麼 01/10 16:40
→ moonlind: 累計越難算的經驗 棋局每往前推一點 需要的經驗絕對不是 01/10 16:42
→ semihumanity: 其實你貼的那篇的那個說法是有點問題的 01/10 16:42
→ moonlind: 等差級數0.0 01/10 16:42
→ moonlind: 而且反過來說 AG現在也正在緩緩修正人類的足跡 假以時日 01/10 16:44
→ moonlind: 人類的影響會越來越細微 在培育過程上會否比純淨還快? 01/10 16:45
→ semihumanity: 當然比較快,光靠亂下起步是非常慢的 01/10 16:46
→ moonlind: 那這就是我想傳達的 我覺得 Master應該不是所謂純淨版 01/10 16:48
→ aaaba: 你可以這樣覺得啊,沒問題 01/10 16:49
→ aaaba: 學界十幾年前也覺得做DNN沒未來,後來靠著幾位固執的人硬是 01/10 16:56
→ aaaba: 開闢了新天地 01/10 16:56
→ aaaba: 我們就等著看結果出來,讚歎一波吧 01/10 16:57
→ birdy590: policy network 是餵譜餵出來的 但它不是非吃人類譜不可 01/10 16:57
→ birdy590: value network 是用 policy network 對下再取"一個盤面" 01/10 16:58
→ birdy590: "評估結果接近人類"真的是好事嗎? 現在已經很令人懷疑了 01/10 16:59
→ moonlind: 對啊 其實我也想被打爆臉 跌破眼鏡 不過又會有點失望 01/10 17:01
→ moonlind: 萬一Master真是純淨版 那也就是說這樣的佈局已經接近正 01/10 17:01
→ moonlind: 解 就會有種 人類至少也摸到邊 圍棋不算那麼廣 的感覺 01/10 17:02
→ moonlind: 我希望真的純淨版可以從頭開始就走得人們莫名其妙www 01/10 17:03
→ aaaba: 你的意思是alphaGo現在的佈局沒讓你很意外嗎?但卻贏了,這 01/10 17:04
→ aaaba: 就是意外啊啊啊 01/10 17:04
→ moonlind: 如果AG他有意識 想著'對付你 這樣就夠了'那你的說法OKww 01/10 17:07
→ moonlind: 正因為他不論對手是誰都當高手 還是用了不算意外的開場 01/10 17:07
→ moonlind: 但是越來越早了 真的 越來越早出現跌破眼鏡的一手了ww 01/10 17:11
→ birdy590: 它開場就有機會出現讓人意外的下法了不是嗎? 01/10 17:13
→ aaaba: 如果覺得沒意外,下次他落子之前你就心裡暗自預測一下位置 01/10 17:15
→ aaaba: 好了,這樣你就會意外了 01/10 17:15
推 semihumanity: 請問哪裡有說value network評估結果要接近人類? 01/10 17:16
→ moonlind: 心裡會期待著 還不夠 還不夠啊 再讓我看 讓我看(這種) 01/10 17:16
→ birdy590: 上面講的是 policy network 想要的效果~ 01/10 17:17
→ birdy590: 有人的形容是 policy network 是在模擬人類的"棋感" 01/10 17:18
→ aaaba: 那只有pre train時才是吧 01/10 17:18
→ moonlind: 不知道在哪裡看到的 好像是辜狗說 棋感所佔的百分比 01/10 17:19
→ aaaba: RL階段一切都是勝率導向,跟人怎麼想一點關係也沒有 01/10 17:19
→ moonlind: 是可以設定的 是不是就好像開關一樣可以調整/ 01/10 17:19
→ moonlind: 調到0 AG就不會刻意下得像人 是這樣嗎/ 01/10 17:20
→ aaaba: 不是 01/10 17:21
→ moonlind: 我原本把這個棋感理解成'猜測' 聽你們現在提起 才想到 01/10 17:22
→ birdy590: policy network:給定當前局面,預測 / 採樣下一步的走棋 01/10 17:23
→ birdy590: fast rollout: 與 policy network 目標相同但快 1000 倍 01/10 17:23
→ birdy590: value network: 給定當前局面,估計是白勝還是黑勝 01/10 17:24
→ aaaba: rollout是類比value吧 01/10 17:24
→ birdy590: 人類棋譜只用在 1, 而且還不用 RL 希望它保有變化 01/10 17:25
→ birdy590: fast rollout 是用來"把棋盤填滿"用的 01/10 17:26
→ aaaba: 填滿不就是要算勝率 01/10 17:29
→ birdy590: 其實這幾個元件都是為了增加 MCTS 效率 而且可以分拆開~ 01/10 17:31
→ aaaba: value 和 rollout 都是評估勝率的手段啊 01/10 17:32
→ aaaba: policy 跟 rollout 有什麼同目標我就不知了 01/10 17:34
→ birdy590: "給定當前局面,預測 / 採樣下一步的走棋" 指的是這件事 01/10 17:36
→ birdy590: rollout 也不是隨便亂下啊 亂下太沒有效率了 01/10 17:39
→ birdy590: 所以把人類棋譜抽掉等於只是換掉 policy network 而已 01/10 17:40
→ aaaba: 沒人提到 rollout 是亂下吧 01/10 17:41
→ birdy590: "AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別" 01/10 17:45
→ birdy590: 我指的是上面這個~ 01/10 17:46
→ birdy590: 其實 AlphaGo 裡面用的這些元件 幾乎都是之前有人試過的 01/10 17:48
→ birdy590: 只是個別運作了不起業餘棋力 要怎麼串就是困難點~ 01/10 17:51
→ forb9823018: 官方不是有說還是有用到人類棋譜啊? 01/10 21:02
→ semihumanity: 我是滿懷疑論文說MCTS用SL policy network 01/11 00:24
→ semihumanity: 這樣RL policy network就只是用來產生data給value 01/11 00:25
→ semihumanity: network 01/11 00:25
→ semihumanity: 這樣訓練下去,也只是在練value network而已 01/11 00:26
→ semihumanity: 這樣棋力就會突破天際? 01/11 00:27
→ semihumanity: 這部份論文沒有提出數據,只是一段話帶過 01/11 00:29
→ semihumanity: 而且MCTS真的用SL policy network才會表現好的話, 01/11 00:30
→ semihumanity: 要怎麼不使用人類棋譜? 01/11 00:31
→ semihumanity: 不用的話,那就是從30級開始練的RL policy network 01/11 00:32
→ semihumanity: 這樣效果會比SL policy好?若是這樣,那用原本的RL 01/11 00:42
→ semihumanity: policy network應該也是可以才對吧 01/11 00:43
→ semihumanity: 所以我懷疑其實MCTS用的是RL policy network 01/11 00:48
推 aegis43210: 重點是RL沒錯呀,用SL只是權宜之計,避免太多運算 01/11 00:54
→ semihumanity: 而且看figure5d,SL policy network也沒多麼多樣化 01/11 01:17
→ semihumanity: 機率最高的兩個點加起來就95%了 01/11 01:17
→ semihumanity: 再者,APV-MCTS就已經有使搜尋不過於集中的機制了 01/11 01:20
→ aaaba: 樓上這個疑問很有意思,有沒有可能是人類的policy是不好的 01/11 18:41
→ aaaba: 起點... 01/11 18:41
→ birdy590: 這裡面其實很多東西都要用試的 直覺去猜並不準確 01/11 18:46
→ birdy590: 對開發團隊來說是在完全未知的領域 別人還要靠他們解答 01/11 18:47
→ semihumanity: SL policy network是猜測KGS 6d~9d快棋的落子,我覺 01/12 00:04
→ semihumanity: 得這肯定是有很大的改善空間 01/12 00:04