看板 GO 關於我們 聯絡資訊
以AlphaGo訓練的方式來說 他是以RL(reinforcement learning) 的方式去訓練結構的參數 就我的理解 每次下完一盤(步)棋都會 依照不同的結果給的獎勵值 去調整參數 因此alphaGo會不會在這三場棋後 變成更能適應小李的下棋模式 甚至是 專門對付他的棋風(local minimum)而不是下出全局最佳解呢? 感覺小李或越戰越辛苦 改變既有的下棋方式會不會贏呢? -- Sent from my Android -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.145.213 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457797137.A.ECE.html
BRANFORD: 他前兩盤變啦 沒用 這盤變回來 更慘 03/12 23:39
touyaman: 她跟小李下三盤 跟自己下幾百萬盤你覺得這三盤有影響嗎 03/12 23:40
bxxl: 他現在不一定在training phase, 可能不會改參數 03/12 23:41
Cocochia: 據了解不會,他只會不斷變強 03/12 23:42
NaoGaTsu: 沒可能,因為三盤的量實在太少,他每天至少能自我對局一 03/12 23:44
NaoGaTsu: 百萬盤,請算算看3/1,000,000會造成多大影響。 03/12 23:44
owlonoak: 理論上它應該不會針對對手進行演算法的調整 03/12 23:44
zelkova: 說不定吧 單機版都贏得了分散式版 代表不是沒有機會 03/12 23:45
moonlind: 不會 這三盤跟插花一樣 他每天自我對戰一百萬局耶 03/12 23:45
真的根插花一樣XD 不過如果他有在Training phase 這三場的權重值又有調大的話搞不好有機會><
arnold3: 微乎其微 03/12 23:45
arnold3: 更何況沒輸代表原本的知識已經夠用了 03/12 23:45
arnold3: 大概就每天下一百萬局中其中對手弱弱的一局 03/12 23:46
moonlind: 但是如果 輸入棋譜的阿法購VS自練起家的阿法購 打千萬盤 03/12 23:46
touyaman: 說實在的 AI現在根本不知道跟他對下的是誰 等到有一天 03/12 23:46
Cocochia: 你下輸他,應該不會列入參考吧! 我想 03/12 23:46
moonlind: 當他有一個性質迥異的對手 陪他打個千萬盤 可能出棋楓 03/12 23:47
touyaman: AI知道對面是誰那才恐怖 03/12 23:47
moonlind: 有天AlphaGO刻意走出第一局對戰棋型 彷彿在問:是你嗎? 03/12 23:49
moonlind: 天啊 想到就毛毛的 03/12 23:49
塔史亮是你! ※ 編輯: Likedodo (233.137.145.213), 03/12/2016 23:54:18
NDSLite: 自我training跟實戰調整的參數應該會不一樣吧 03/13 00:11
birdy590: 正常的話 實戰中根本不會 training, 回去再手動做較好 03/13 00:13
birdy590: 我記得 Aja 好像有提到 這次用的網路參數和去年底一樣 03/13 00:13
birdy590: 所以這三場以來一面戰鬥一面學習只是個幻想而已 03/13 00:14
的確是這樣....但是這三場一場比一場艱難,真的讓人會聯想到這樣XD ※ 編輯: Likedodo (114.47.237.215), 03/13/2016 00:27:55
aegis43210: 所以alphaGO只自我對弈到去年底而已? 03/13 01:00
birdy590: 訓練的結果只是一堆數字, 可以任意抽換不同版本 03/13 01:04
mrmowmow: 這三盤他屌贏兩盤(應該吧) 你覺得他值得為這種內容改變 03/13 01:05
mrmowmow: 下法嗎? 03/13 01:05
以訓練的角度來說 就算這次的解沒有比較好 也就是淘汰而已 但如果與這種高段棋士對弈 能夠帶來更好參數 也會有訓練的價值吧 反正參數能備份阿XD
birdy590: 我想要換成純 AlphaGo 對奕棋譜重新訓練 也有研究意味在 03/13 01:05
birdy590: 訓練完可以拿兩種版本互相對奕 看看棋力是不是真有增強 03/13 01:06
的確有研究的價值 沒有引導資料 從亂數重新訓練 不知道這樣有沒有辦法訓練出現在的數學模型
moonlind: 拜託請再造一台純AlphaGO 不要刪目前這台的檔啊QAQ 03/13 01:06
aegis43210: 所以google還沒拿出最近的參數出來…,太扯了 03/13 01:07
※ 編輯: Likedodo (114.47.237.215), 03/13/2016 01:25:46
goldduck: 其實是整個棋盤掌握力 狗狗力勝全職棋 03/13 01:10
goldduck: 當你發現狗狗走出大損還樂勝 代表實力差距之大 03/13 01:10
cute64627732: AG:連續好幾天幾百萬盤,卻來5盤慢棋且好弱的對手? 03/13 01:18
darkseer: birdy590請問有印象Aja哪裡提到嗎,意思是其實這次的跟 03/13 03:28
darkseer: 1月底的paper差不多呀.. 03/13 03:28
s9209122222: 期待純 AlphaGo 打破過去大家認為有用的定石 03/13 06:37
darkseer: 下面rgx網友的文章裡陳經是說這次的AlphaGo強非常多, 03/13 10:00
darkseer: (跟去年底的比起來)從ELO看起來也是如此,作者(之一) 03/13 10:01
darkseer: Silver也是表示到賽前某段時間(?)有持續自我訓練 03/13 10:02