看板 GO 關於我們 聯絡資訊
中韓對弈資料互通養虎為患 李世石評新AlphaGo 新浪體育訊  9日,韓tygem網對韓國新聞界爆料說,“和谷歌deepmind團隊一直保持緊 密的合作關係,為AlphaGo的發展不遺餘力提供了全面的支援。”即AlphaGo深度學習的“ 人類棋譜”主要採集于韓tygem對弈,而這款對弈平臺與中國實現了資料互通,柯潔、范 廷鈺等中國職業棋手長年在此平臺與朴廷桓等韓國職業交流,為伺服器積累了大量的人類 頂級棋譜。AlphaGo實際去年3月人機大戰前就已“潛伏”在tygem平臺覓食,而tygem平臺 最終起到了“養虎為患”的作用。   去年12月16日,韓tygem新事業團隊接到谷歌deepmind公司黃士傑博士的電子郵件, 要求“註冊韓國國籍的帳號Magister(P),以測試新版AlphaGo”。黃士傑同時要求刪除 表明是英國籍的帳號“deepmind”,這一帳號是去年3月“人機大戰”前“潛伏”tygem平 臺的AlphaGo的馬甲,而且被明眼的棋友戳穿。而“deepmind”這一帳號的戰績也是不盡 人意,也沒有引起任何轟動效果。   Magister(P)去年12月29日至31日在tygem平臺出沒,每日十盤連克中韓頂尖棋手取 得三十連勝,旋即AlphaGo又穿上“Master”的馬甲出現在中國“野狐”平臺連戰三天取 得三十連勝,在中韓兩大對弈平臺橫掃人類職業棋手取得了“60:0”的戰績。  去年3月13日的“人機大戰”第四局,李世石靠“神之一手”戰勝了AlphaGo,這一局很 有可能成為人類面對AlphaGo在正式比賽上取得的唯一一盤勝局。李世石去年成為韓國棋 壇的“獎金王”,一年賺了8億韓元。年關之際,李世石又做出驚人舉動,向他的家鄉新 安郡的福利機構捐獻了5000萬韓元。李世石還指定“專款專用”,為飛禽面(飛禽島) 727口的低收入孤寡老人和殘疾人,100口低收入單親家庭和“多文化家庭(異國婚姻)” 置辦過冬的棉衣和被褥。   李世石也關注新版AlphaGo在網路對弈平臺橫掃中韓頂尖棋手的表現。李世石評價說 :“去年3月和我較量的AlphaGo,進入讀秒就會出現一些不穩,現在這一部分得到補強了 。現在職業棋手和新版AlphaGo在相同讀秒條件下比賽,就沒有勝算了。AlphaGo是機器, 所以不會出現失誤,但人類棋手在讀秒催促下很容易出現失誤。所以AlphaGo讀秒,而人 類棋手有2~3小時相對充裕的比賽用時的情況下比賽,那麼五盤中有機會贏一盤。”   此前,李世石在接受採訪時表態“支持柯潔至少贏兩局”。李世石說:“超越國籍, 我想支援後輩棋手柯潔。”   藍烈 http://sports.sina.com.cn/go/2017-01-09/doc-ifxzkfuh6428301.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.73.51 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1483968893.A.F55.html
vythxmythx: 內文錯很多吧... deepmind帳號是黃博士自己下的 所以 01/09 21:39
vythxmythx: 才沒有很驚人 01/09 21:39
owen91: 養虎為患 這鳥結論 01/09 22:03
sean920909: 是2個都有在下 01/09 22:19
zelkova: 黃博士是用deepmind很久 不過後面幾場似乎有用阿法狗測試 01/09 22:57
zelkova: 不過黃沒出來闢謠 也沒人去問就是了 01/09 22:58
semihumanity: AlphaGO:人類頂級棋譜?ZZZzzz 01/09 23:12
ggoutoutder: ㄏㄏ 又有人開始消費了 01/10 00:05
cute64627732: 推捐錢給弱勢,推支持後輩柯傑~ 01/10 02:56
ddavid: 新版早就不吃人類棋譜自己練了,這篇還是算了吧 01/10 03:49
moonlind: "AlphaGO這麼強 是吸收了我們的頂級棋譜" 01/10 10:23
mrbigmouth: 「新版是沒吃過人類棋譜的版本」<=雖然很多人都這樣猜 01/10 11:03
mrbigmouth: 了 但官方有宣布確認過嗎? 01/10 11:04
mrbigmouth: master就是當初說要嘗試完全不吸收棋譜自己練的版本? 01/10 11:04
birdy590: 這事去年老闆和 Aja 都講過... 時間這麼長應該是做完了 01/10 11:17
birdy590: 從理論上來看 初始階段餵的人類棋譜的確可能變成污染 @@ 01/10 11:17
blackwindy: 還在人類棋譜 就訓練資料來看根本連0.1%的比例都沒有 01/10 11:58
blackwindy: 輸了就開始各種找理由 也太好笑 01/10 11:58
semihumanity: 我個人認為V25是V18練上去的啦 01/10 12:39
moonlind: 反正就"應該"做完了 "大概"是了 "這些招法沒見過"所以 01/10 14:04
moonlind: 是自我版 根本都是猜的 01/10 14:05
moonlind: 看了AlphaGO的下棋評估方式就會發現 要做純淨版絕對不是 01/10 14:06
moonlind: 那麼簡單 光是"何謂勝利" 你沒有樣板給電腦看 也說不清 01/10 14:07
moonlind: 光是AG自我對奕 因為勝率而修正落子點 形成沒看過的下法 01/10 14:09
moonlind: 就是非常常見的事 隨著時間人類譜的影響降低也可預見 01/10 14:10
aaaba: 電腦判斷何謂勝利還真的不用樣板就做得到,只要會填子就好 01/10 14:15
moonlind: 不是最後的勝利啦 是"某局面下"的勝負判斷 01/10 14:41
moonlind: https://www.zhihu.com/question/41238749 如果這科普是 01/10 14:45
moonlind: 正確的話 因為自我無限對奕的方法 AG以前的AI就用過了 01/10 14:46
moonlind: 效果都沒有AG的好 被殺得不要不要的 假設拿掉人類譜 01/10 14:47
moonlind: AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別 01/10 14:47
aaaba: 拿掉人類譜還有兩張空白有待訓練的網路 01/10 14:51
moonlind: 那要這麼說 AG就只是錢砸出來的 誰的電腦連得多 就越猛 01/10 14:54
aaaba: 錢是必要條件,不是充分條件 01/10 14:55
moonlind: 我的意思是AG目前的高度 人類譜佔了一半 抽掉了=頓失五 01/10 14:57
moonlind: 成功 一年時間 大概跟刑天等等齊頭 01/10 14:58
aaaba: 我現在沒在討論master有沒有抽掉人類譜,這點等他們自己公 01/10 15:06
aaaba: 佈就好,我只是個看熱鬧的。剛開始我是不了解你怎麼推論出 01/10 15:06
aaaba: 沒有抽掉的,現在比較明白了 01/10 15:06
moonlind: 其實我本來也是覺得自我對奕好像很厲害 可是看過AG的下 01/10 15:20
semihumanity: 有人覺得圍棋老師讓你棋力從30級變業餘初段是在污染 01/10 15:20
moonlind: 棋介紹後才知道原來並不是我想的那樣 01/10 15:21
semihumanity: 你的棋藝? 01/10 15:21
birdy590: 看起來上面幾位並沒有弄懂人類棋譜的作用是什麼 01/10 16:03
birdy590: 常常被拿來濫用的"左右互搏"也一樣 和一般人想像兩碼事 01/10 16:04
birdy590: AlphaGo 厲害的地方是把舊有的兩套方法湊在一起 01/10 16:05
birdy590: moonlind 好像以為人類譜很重要? 根本不是那麼回事 01/10 16:07
birdy590: 拿人類譜去餵 DCNN, 結果會是讓它的反應比較接近人類 01/10 16:09
birdy590: 網棋通常沒有細算 離最佳解的距離應該會比它自己算還遠 01/10 16:12
birdy590: 就拿上面的疑問來講 DCNN並不需要知道"何謂勝利" 01/10 16:17
birdy590: 它只負責給出選擇 MCTS 自己會驗算, 各自做自己擅長的事 01/10 16:19
moonlind: 把舊有的兩種方法湊在一起對啊 其中一邊是餵譜餵出來的 01/10 16:32
moonlind: 另一邊是亂走走出來的 兩者合一 發現能屌打以前亂走版的 01/10 16:32
moonlind: 現在假設餵譜那邊 用的都是亂走出來的譜(純淨) 那不就等 01/10 16:33
moonlind: 於從頭到尾都是亂走版? 這樣還能達到AG的高度嗎 01/10 16:34
semihumanity: 理論上可以,只是要訓練更久。 01/10 16:37
moonlind: 究竟是多久 其實根據我貼的那個 棋局越靠前 吃譜的份量 01/10 16:39
semihumanity: 只是自己亂下,想要無師自通,基本上是浪費時間 01/10 16:40
moonlind: 越重 不正表示 棋局越靠前 經驗法則越重要 而電腦要怎麼 01/10 16:40
moonlind: 累計越難算的經驗 棋局每往前推一點 需要的經驗絕對不是 01/10 16:42
semihumanity: 其實你貼的那篇的那個說法是有點問題的 01/10 16:42
moonlind: 等差級數0.0 01/10 16:42
moonlind: 而且反過來說 AG現在也正在緩緩修正人類的足跡 假以時日 01/10 16:44
moonlind: 人類的影響會越來越細微 在培育過程上會否比純淨還快? 01/10 16:45
semihumanity: 當然比較快,光靠亂下起步是非常慢的 01/10 16:46
moonlind: 那這就是我想傳達的 我覺得 Master應該不是所謂純淨版 01/10 16:48
aaaba: 你可以這樣覺得啊,沒問題 01/10 16:49
aaaba: 學界十幾年前也覺得做DNN沒未來,後來靠著幾位固執的人硬是 01/10 16:56
aaaba: 開闢了新天地 01/10 16:56
aaaba: 我們就等著看結果出來,讚歎一波吧 01/10 16:57
birdy590: policy network 是餵譜餵出來的 但它不是非吃人類譜不可 01/10 16:57
birdy590: value network 是用 policy network 對下再取"一個盤面" 01/10 16:58
birdy590: "評估結果接近人類"真的是好事嗎? 現在已經很令人懷疑了 01/10 16:59
moonlind: 對啊 其實我也想被打爆臉 跌破眼鏡 不過又會有點失望 01/10 17:01
moonlind: 萬一Master真是純淨版 那也就是說這樣的佈局已經接近正 01/10 17:01
moonlind: 解 就會有種 人類至少也摸到邊 圍棋不算那麼廣 的感覺 01/10 17:02
moonlind: 我希望真的純淨版可以從頭開始就走得人們莫名其妙www 01/10 17:03
aaaba: 你的意思是alphaGo現在的佈局沒讓你很意外嗎?但卻贏了,這 01/10 17:04
aaaba: 就是意外啊啊啊 01/10 17:04
moonlind: 如果AG他有意識 想著'對付你 這樣就夠了'那你的說法OKww 01/10 17:07
moonlind: 正因為他不論對手是誰都當高手 還是用了不算意外的開場 01/10 17:07
moonlind: 但是越來越早了 真的 越來越早出現跌破眼鏡的一手了ww 01/10 17:11
birdy590: 它開場就有機會出現讓人意外的下法了不是嗎? 01/10 17:13
aaaba: 如果覺得沒意外,下次他落子之前你就心裡暗自預測一下位置 01/10 17:15
aaaba: 好了,這樣你就會意外了 01/10 17:15
semihumanity: 請問哪裡有說value network評估結果要接近人類? 01/10 17:16
moonlind: 心裡會期待著 還不夠 還不夠啊 再讓我看 讓我看(這種) 01/10 17:16
birdy590: 上面講的是 policy network 想要的效果~ 01/10 17:17
birdy590: 有人的形容是 policy network 是在模擬人類的"棋感" 01/10 17:18
aaaba: 那只有pre train時才是吧 01/10 17:18
moonlind: 不知道在哪裡看到的 好像是辜狗說 棋感所佔的百分比 01/10 17:19
aaaba: RL階段一切都是勝率導向,跟人怎麼想一點關係也沒有 01/10 17:19
moonlind: 是可以設定的 是不是就好像開關一樣可以調整/ 01/10 17:19
moonlind: 調到0 AG就不會刻意下得像人 是這樣嗎/ 01/10 17:20
aaaba: 不是 01/10 17:21
moonlind: 我原本把這個棋感理解成'猜測' 聽你們現在提起 才想到 01/10 17:22
birdy590: policy network:給定當前局面,預測 / 採樣下一步的走棋 01/10 17:23
birdy590: fast rollout: 與 policy network 目標相同但快 1000 倍 01/10 17:23
birdy590: value network: 給定當前局面,估計是白勝還是黑勝 01/10 17:24
aaaba: rollout是類比value吧 01/10 17:24
birdy590: 人類棋譜只用在 1, 而且還不用 RL 希望它保有變化 01/10 17:25
birdy590: fast rollout 是用來"把棋盤填滿"用的 01/10 17:26
aaaba: 填滿不就是要算勝率 01/10 17:29
birdy590: 其實這幾個元件都是為了增加 MCTS 效率 而且可以分拆開~ 01/10 17:31
aaaba: value 和 rollout 都是評估勝率的手段啊 01/10 17:32
birdy590: https://goo.gl/3BRcmg 可以複習一下 01/10 17:34
aaaba: policy 跟 rollout 有什麼同目標我就不知了 01/10 17:34
birdy590: "給定當前局面,預測 / 採樣下一步的走棋" 指的是這件事 01/10 17:36
birdy590: rollout 也不是隨便亂下啊 亂下太沒有效率了 01/10 17:39
birdy590: 所以把人類棋譜抽掉等於只是換掉 policy network 而已 01/10 17:40
aaaba: 沒人提到 rollout 是亂下吧 01/10 17:41
birdy590: "AG就只剩下蒙特卡羅 跟現在AG的其他手下敗將沒有分別" 01/10 17:45
birdy590: 我指的是上面這個~ 01/10 17:46
birdy590: 其實 AlphaGo 裡面用的這些元件 幾乎都是之前有人試過的 01/10 17:48
birdy590: 只是個別運作了不起業餘棋力 要怎麼串就是困難點~ 01/10 17:51
forb9823018: 官方不是有說還是有用到人類棋譜啊? 01/10 21:02
semihumanity: 我是滿懷疑論文說MCTS用SL policy network 01/11 00:24
semihumanity: 這樣RL policy network就只是用來產生data給value 01/11 00:25
semihumanity: network 01/11 00:25
semihumanity: 這樣訓練下去,也只是在練value network而已 01/11 00:26
semihumanity: 這樣棋力就會突破天際? 01/11 00:27
semihumanity: 這部份論文沒有提出數據,只是一段話帶過 01/11 00:29
semihumanity: 而且MCTS真的用SL policy network才會表現好的話, 01/11 00:30
semihumanity: 要怎麼不使用人類棋譜? 01/11 00:31
semihumanity: 不用的話,那就是從30級開始練的RL policy network 01/11 00:32
semihumanity: 這樣效果會比SL policy好?若是這樣,那用原本的RL 01/11 00:42
semihumanity: policy network應該也是可以才對吧 01/11 00:43
semihumanity: 所以我懷疑其實MCTS用的是RL policy network 01/11 00:48
aegis43210: 重點是RL沒錯呀,用SL只是權宜之計,避免太多運算 01/11 00:54
semihumanity: 而且看figure5d,SL policy network也沒多麼多樣化 01/11 01:17
semihumanity: 機率最高的兩個點加起來就95%了 01/11 01:17
semihumanity: 再者,APV-MCTS就已經有使搜尋不過於集中的機制了 01/11 01:20
aaaba: 樓上這個疑問很有意思,有沒有可能是人類的policy是不好的 01/11 18:41
aaaba: 起點... 01/11 18:41
birdy590: 這裡面其實很多東西都要用試的 直覺去猜並不準確 01/11 18:46
birdy590: 對開發團隊來說是在完全未知的領域 別人還要靠他們解答 01/11 18:47
semihumanity: SL policy network是猜測KGS 6d~9d快棋的落子,我覺 01/12 00:04
semihumanity: 得這肯定是有很大的改善空間 01/12 00:04