[心得] 改良 AlphaGo 的收官

作者yamiyodare (shantotto)

看板GO

標題[心得] 改良 AlphaGo 的收官

時間Tue Mar 15 23:39:10 2016

AlphaGo 的官子說實在有點... 怪, 對於高手而言甚至會得到弱的評價. 不過這很可能是因為它知道怎麼贏, 不知道怎麼贏多一點的問題. 想像一下 AlphaGo 接近終盤已經贏了十目左右的情況. 如果它可以算清, 很多走法的勝率都會是 100% 可是它不知道怎麼收官能贏最多 (職業棋士眼中的最佳手順) 隨便挑一條 100% 走的情況, 贏半目到十目左右都有可能. 如果它真的有算清 (再次強調 "算清") 其實不影響輸贏. 只是會給人類有種錯覺, 官子下這麼爛? 人類多下幾手有機會翻盤. 但下到最後會發現... 人類怎麼收都輸一些. 要看出 AlphaGo 收官的實力, 可能要終盤前小輸幾目. 這時候好手順的勝率才看得出相對較高, 往勝率高的走自然比較接近最佳手順. 要改良 AlphaGo 優勢下隨便收官的問題: 判斷勝率的 value network 根據固定貼目而來. 這也是為什麼 AlphaGo 原本設定中國制 7.5 目, 不方便突然改成韓國制 6.5 目. 如果真的改成韓國制而這一版的 AlphaGo 又持白, 好死不死走上勝率 100% 但只贏 0.5 目的那條路, 實際上是輸 0.5 目. value network 應該可以同時訓練出不同貼目設定下判斷輸贏的版本. 類似佐為對戰塔矢行洋時, 自認為要多贏十幾目才算贏. 那麼在有多條路徑回報勝率 100% 時 (通常是官子階段優勢局面) 換成問多貼一點目的 value network, 本來 100% 的路徑就會下降看出誰高誰低. 也就是說本來贏 0.5 目算贏, 突然跟它說得多贏幾目才算贏, 它就會認真收求勝. 如此 AlphaGo 應該有能力在優勢局面下收出比較正確的官子贏最多. 而且大官子階段多賺一點, 沒算清的時候也比較不會被翻盤. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.113.64 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1458056353.A.17D.html

推 ucci: 阿發狗是低階人工智慧，才不管大勝 03/15 23:55

推 DemonElf: 現在的Alphago看起來大概都是推估以勝率為優先 03/16 00:01

→ DemonElf: 只是說若以勝率為優先可以下到贏九段的水準，那代表人類 03/16 00:02

→ DemonElf: 對圍棋的認知還有很大的突破與成長空間 03/16 00:02

推 aaaba: 努力求勝會下出很多智障手，看第四盤末的狗 03/16 00:04

→ goldduck: 努力求敗狗 03/16 00:07

→ yamiyodare: 第四盤最後幾手我一直覺得是 MCTS 的 bug... XD 03/16 00:12

→ aaaba: 讓狗有落後的錯覺，奇妙的著手就會一直出現，所以還是不要 03/16 00:18

→ aaaba: 給狗太大的壓力才是對他好 03/16 00:18

→ imperfectJJT: 14座世界冠軍現世界第4有20%機率給2歲狗壓力樓上+油 03/16 00:45

推 lwei781: 就人類太弱 03/16 01:02

推 gary27: 但是柯潔蠻早就算到輸了，其他台都一直在點目 03/16 22:13

推 xhung: 同意這說法勝率相同的路徑 AG似乎就沒辦法判斷哪各較好 03/17 01:22

→ xhung: 或許也可再加輔助條件在勝率一樣時才能幫助做選擇... 03/17 01:24