[閒聊] AlphaGO棋風定型的可能性

作者Likedodo (小熊得冠軍)

看板GO

標題[閒聊] AlphaGO棋風定型的可能性

時間Sat Mar 12 23:38:54 2016

以AlphaGo訓練的方式來說他是以RL(reinforcement learning) 的方式去訓練結構的參數就我的理解每次下完一盤(步)棋都會依照不同的結果給的獎勵值去調整參數因此alphaGo會不會在這三場棋後變成更能適應小李的下棋模式甚至是專門對付他的棋風(local minimum)而不是下出全局最佳解呢？感覺小李或越戰越辛苦改變既有的下棋方式會不會贏呢？ -- Sent from my Android -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.145.213 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457797137.A.ECE.html

推 BRANFORD: 他前兩盤變啦沒用這盤變回來更慘 03/12 23:39

→ touyaman: 她跟小李下三盤跟自己下幾百萬盤你覺得這三盤有影響嗎 03/12 23:40

推 bxxl: 他現在不一定在training phase, 可能不會改參數 03/12 23:41

推 Cocochia: 據了解不會，他只會不斷變強 03/12 23:42

→ NaoGaTsu: 沒可能，因為三盤的量實在太少，他每天至少能自我對局一 03/12 23:44

→ NaoGaTsu: 百萬盤，請算算看3/1,000,000會造成多大影響。 03/12 23:44

推 owlonoak: 理論上它應該不會針對對手進行演算法的調整 03/12 23:44

→ zelkova: 說不定吧單機版都贏得了分散式版代表不是沒有機會 03/12 23:45

推 moonlind: 不會這三盤跟插花一樣他每天自我對戰一百萬局耶 03/12 23:45

真的根插花一樣XD 不過如果他有在Training phase 這三場的權重值又有調大的話搞不好有機會><

推 arnold3: 微乎其微 03/12 23:45

→ arnold3: 更何況沒輸代表原本的知識已經夠用了 03/12 23:45

→ arnold3: 大概就每天下一百萬局中其中對手弱弱的一局 03/12 23:46

→ moonlind: 但是如果輸入棋譜的阿法購VS自練起家的阿法購打千萬盤 03/12 23:46

推 touyaman: 說實在的 AI現在根本不知道跟他對下的是誰等到有一天 03/12 23:46

推 Cocochia: 你下輸他，應該不會列入參考吧！我想 03/12 23:46

→ moonlind: 當他有一個性質迥異的對手陪他打個千萬盤可能出棋楓 03/12 23:47

→ touyaman: AI知道對面是誰那才恐怖 03/12 23:47

→ moonlind: 有天AlphaGO刻意走出第一局對戰棋型彷彿在問:是你嗎? 03/12 23:49

→ moonlind: 天啊想到就毛毛的 03/12 23:49

塔史亮是你! ※ 編輯: Likedodo (233.137.145.213), 03/12/2016 23:54:18

推 NDSLite: 自我training跟實戰調整的參數應該會不一樣吧 03/13 00:11

推 birdy590: 正常的話實戰中根本不會 training, 回去再手動做較好 03/13 00:13

→ birdy590: 我記得 Aja 好像有提到這次用的網路參數和去年底一樣 03/13 00:13

→ birdy590: 所以這三場以來一面戰鬥一面學習只是個幻想而已 03/13 00:14

的確是這樣....但是這三場一場比一場艱難，真的讓人會聯想到這樣XD ※ 編輯: Likedodo (114.47.237.215), 03/13/2016 00:27:55

推 aegis43210: 所以alphaGO只自我對弈到去年底而已？ 03/13 01:00

推 birdy590: 訓練的結果只是一堆數字, 可以任意抽換不同版本 03/13 01:04

噓 mrmowmow: 這三盤他屌贏兩盤(應該吧) 你覺得他值得為這種內容改變 03/13 01:05

→ mrmowmow: 下法嗎？ 03/13 01:05

以訓練的角度來說就算這次的解沒有比較好也就是淘汰而已但如果與這種高段棋士對弈能夠帶來更好參數也會有訓練的價值吧反正參數能備份阿XD

→ birdy590: 我想要換成純 AlphaGo 對奕棋譜重新訓練也有研究意味在 03/13 01:05

→ birdy590: 訓練完可以拿兩種版本互相對奕看看棋力是不是真有增強 03/13 01:06

的確有研究的價值沒有引導資料從亂數重新訓練不知道這樣有沒有辦法訓練出現在的數學模型

→ moonlind: 拜託請再造一台純AlphaGO 不要刪目前這台的檔啊QAQ 03/13 01:06

推 aegis43210: 所以google還沒拿出最近的參數出來…，太扯了 03/13 01:07

※ 編輯: Likedodo (114.47.237.215), 03/13/2016 01:25:46

→ goldduck: 其實是整個棋盤掌握力狗狗力勝全職棋 03/13 01:10

→ goldduck: 當你發現狗狗走出大損還樂勝代表實力差距之大 03/13 01:10

推 cute64627732: AG:連續好幾天幾百萬盤,卻來5盤慢棋且好弱的對手? 03/13 01:18

推 darkseer: birdy590請問有印象Aja哪裡提到嗎，意思是其實這次的跟 03/13 03:28

→ darkseer: 1月底的paper差不多呀.. 03/13 03:28

推 s9209122222: 期待純 AlphaGo 打破過去大家認為有用的定石 03/13 06:37

推 darkseer: 下面rgx網友的文章裡陳經是說這次的AlphaGo強非常多， 03/13 10:00

→ darkseer: (跟去年底的比起來)從ELO看起來也是如此，作者(之一) 03/13 10:01

→ darkseer: Silver也是表示到賽前某段時間(?)有持續自我訓練 03/13 10:02