Re: [閒聊] 有關"深度學習"的文章

作者mathbug (天堂的定義)

看板GO

標題Re: [閒聊] 有關"深度學習"的文章

時間Wed Mar 16 11:24:14 2016

※ 引述《OxfordGOD (牛津神)》之銘言： : http://www.bnext.com.tw/article/view/id/38923 : 目前我在網路上看到這篇介紹的比較詳細第一次粗略地看完這一篇文章結合這幾天來的思考我想提出一些看法簡略地先說說 AlphaGo 的三大手法:(有錯請指正) 1. 策略網路 (根據大量棋譜訓練監督式學習提出(雙方)最有可能的落子點) https://goo.gl/bONQ6T 2. 評價網路 (根據兩台能力相同的AlphaGo(隨機多次)下到完，推估落子點勝率，選勝率高者。由於兩台機器能力一樣，此機率跟落點有關，跟對手是誰或能力無關) https://goo.gl/XWfWnv 3. 蒙地卡羅搜尋樹 (混合1與2並進行簡化動作，不需要每一點或每一個分支進行分析) ____________________________________________________________ 也請參考 http://www.slideshare.net/ccckmit/alphago-59482042 (用十分鐘瞭解《AlphaGo的幾個可能弱點》) ____________________________________________________________ ****** 以下為我的看法 ********* _______________________________ 個人覺得有兩個方向可能可以試試讓AlphaGo更接近完美 A. 訓練棋譜先分類如我之前的文章所說明 #1MvdF35h (避開勝負手/無理手翻盤的棋譜訓練時只採用完勝的棋譜) B. 將評價網路中的勝率最高著點改為圍地目數最多之著點當然可以兩種都記錄下來根據以上的第2點，比方說，模擬10000盤，某a點圍地最多，它的勝率也應該是勝率最高的幾個點之一，這絕對是正相關的兩種參數 (若不是，系統的不穩定性就出來了(如第四盤的鬼手出現)) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.177.12.82 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1458098658.A.720.html ※ 編輯: mathbug (180.177.12.82), 03/16/2016 11:24:49

→ aaaba: 來人啊，把千萬盤棋譜表上圍地最大的著點 03/16 11:26

→ aaaba: 等等，你到底是在說評價網路還是策略網路 03/16 11:27

→ aaaba: 表->標 03/16 11:28

→ aaaba: 原來的評價網路也是沒有勝率最高著點這種輸出 03/16 11:29

推 zeat: 有些棋是專門破空或殺棋的，這跟圍地就無關了吧 03/16 11:39

我應該說數子最多者基本上是一樣的 ※ 編輯: mathbug (180.177.12.82), 03/16/2016 11:42:28

推 jackypan1989: 不如說是相對目數增幅 03/16 11:53

噓 aaaba: 你可以自己定義你的評價網路，但不要說是alphaGo的可以嗎？ 03/16 13:25