Re: [爆卦] AlphaGo發現自己79步失誤

作者yamiyodare (shantotto)

看板GO

標題Re: [爆卦] AlphaGo發現自己79步失誤

時間Sun Mar 13 19:53:04 2016

※ 引述《tlchen (台灣加油)》之銘言： : 從這兩個 twitter 來看， AI 在 79 時仍認為自己有 79% 的勝率， : 直到第 87 手時，才發現勝率驟降。四日棋迷猜測如下： : AI 估計勝率是經由之後的模擬，白 78 手被認為神手，但或許是之後 : 的巧妙變化是不明顯的，所以 AI 無法知道這手有這麼大的功用，或 : 是說，無法準確的評估此時的盤面。 value network 是給一個盤面 (361 個輸入黑/白/空) 直接告訴你勝率. 基本上盤面幾乎不會重複, 所以每一個盤面都是 AlphaGo 或人沒看過的. 如果是人, 中盤之後可能會開始點空估計目數. 而估錯最可能發生在以為的活棋其實是死棋, 比如說進行中的攻殺. value network 是餵給它千萬盤面, 然後跟它說最後是贏是輸訓練出來. 遇到新的盤面, value network 根據之前的經驗 (神經連結權重) 吐出結果. 如果單純餵 "361 個輸入黑/白/空" 進去訓練一定完蛋, 因為這樣變成單純的形態學, 長得像某個樣子就以為會輸或會贏. 圍棋很多時候差一路就差很多 (好手的旁邊常是惡手) 所以還會加入 "剩下的氣數" "提子數" "手順" "征子" 等等資訊進去訓練. 如果人類認為 79 手的盤勢黑棋大劣了, 那麼 79 手的盤面 value network 就應該吐勝率陡降的值出來, 而不是等到 87 手的盤面才反應. 如果 AlphaGo 知道 79 手 (甚至更早) 的盤面劣勢, 前幾手就會避免走上這個局面. 但到 87 手才知道劣勢, 這時候已經走上不歸路. AlphaGo 團隊回去一定是在研究這種盤面為什麼會估錯, 以及要如何調整訓練方式. : 這提供了要對付目前這版 AlphaGo 的方法，你最好下一些方法是：接 : 下來對你的最佳解跟次佳解，結果會差很多，這樣 AI 用模擬的，就有 : 機會誤判。如果你下的棋，接下來的應對，結果都差不了太多，那 AI : 自然估得準。讓它估不準，才會在接下來還沒估準前，繼續出錯。這真的要拼 AlphaGo 形勢判斷錯誤. 但是我們不知道甚麼樣的盤面可以讓 AlphaGo 形勢判斷錯誤, 劣勢誤以為優勢. 也許是大規模攻殺, 然後又走進特定的棋型 (像小李今天那一手) 讓它誤判. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.113.64 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457869987.A.DFB.html

→ allenmusic: 我也這樣認為這麼晚才估出來已經有很大的問題 03/13 19:55

→ allenmusic: 後面alphago還演變成一堆自殺下法 03/13 19:57

推 Maybetrue: 期待Google公開AlphaGo秀斗的關鍵原因。 03/13 19:58

→ allenmusic: google乾脆大方公開程式碼讓全世界寫程式的去bug不是 03/13 19:58

→ allenmusic: 更快??? 03/13 19:59

推 MaseratiGTS: 這樣google還要混嗎 03/13 19:59

推 aegis43210: 所以79~87的自殺打法是他認為勝率7X%時下出來的？ 03/13 19:59

推 signm: 所以alphago應該只能預估是當下而不是後面局勢 03/13 19:59

→ yamiyodare: 它會預估後面, 但若估錯得太早已經來不及救了. 03/13 20:00

推 signm: 那應該說alphago目前還沒有大局觀 03/13 20:03

→ yamiyodare: 它有大局觀而且很強喔只是跟人一樣不是完全正確 03/13 20:04

→ allenmusic: 我認為alphago自我鍛鍊幾百萬幾千萬盤應該多少會下 03/13 20:05

推 DemonElf: 不是Alphago只能估當下局勢，而是他並沒有完全算完(正是 03/13 20:05

推 blackwindy: 阿法狗就剛好沒算到那步不是沒有大局觀 03/13 20:05

→ allenmusic: 出這種自殺自爆的棋路但google公司應該沒花時間去 03/13 20:06

→ blackwindy: 沒有大局觀還能屌打李喔? 怎麼可能 03/13 20:06

→ DemonElf: 因為現今電腦還沒辦法完全計算完所以才會只有Alphago能 03/13 20:06

→ allenmusic: 檢驗每一個棋盤結果 03/13 20:06

→ blackwindy: 那演算法就是有隨機性就隨機的剛好沒算到關鍵的那步 03/13 20:06

→ DemonElf: 有能力打敗職業棋手)，Alphago的類神經演算法是模擬人類 03/13 20:06

→ yamiyodare: 它有算到... 但是劣勢誤以為優勢所以還是往那邊下 03/13 20:07

→ allenmusic: 還好李世石再這五盤幫google省了不少檢驗時間 03/13 20:07

→ blackwindy: 你怎麼能那麼確定他有算到? 03/13 20:08

→ DemonElf: 在有限的時間內去找出勝率最高的位置下，而且就像black 03/13 20:08

→ DemonElf: 提到的他還帶有隨機性，也就是說即使重新下一次今天的棋 03/13 20:09

→ HamalAri: 選擇不是看value network和MCTS的綜合結果嗎？沒只看其 03/13 20:09

→ HamalAri: 中一種吧 03/13 20:09

→ DemonElf: Alphago下出來的結果理論上也有很大機會是不同的 03/13 20:09

→ yamiyodare: 因為小李下了之後好幾手 AlphaGo 居然還以為自己優勢 03/13 20:10

→ blackwindy: 就是連續沒算到吧至於為什麼沒算到就是要看了 03/13 20:10

→ allenmusic: 我是猜他重心花在計算自己下一步怎下勝率高沒花太 03/13 20:10

→ DemonElf: 不覺得AI這樣的"以為"其實跟人類有很類似的一面嗎 03/13 20:11

→ blackwindy: 看到底是演算法設計缺陷隨機有問題還是其他有的沒的 03/13 20:11

→ allenmusic: 多時間去幫對方計算對方下一步下那裡勝率如何 03/13 20:11

→ allenmusic: 因為程式是人想寫出來的阿哈哈當然會有人類缺陷 03/13 20:12

→ dukemon: 我記得之前不是有一局就想說他可能大局觀不足，但李原本 03/13 20:12

→ yamiyodare: 給一個盤面要估出勝算本來就是超難題有很大進步空間 03/13 20:12

→ blackwindy: 他論文有提到他會預測對方接下來怎麼下別亂猜 03/13 20:12

→ dukemon: 想攻的地方被AlphaGO先行穩固 03/13 20:13

推 NaoGaTsu: 推這篇，解說清楚。 03/13 20:16

→ goldduck: 所以合理懷疑87手是被插入執行 03/13 20:30

→ goldduck: 有被動手腳之嫌 03/13 20:31

推 logus: 這ai就是模擬人類腦神經的產物他本來就很像人 03/13 20:31

→ logus: 他跟人的差別是他不眠不休的鑽研圍棋而且也只會下圍棋 03/13 20:32

→ logus: 這種學習型ai甚至可以發展出自己的棋風比如阿發狗的勝率流 03/13 20:33

→ logus: 那是他吃玩棋譜之後覺得最好贏的下法 03/13 20:34

→ logus: 比較可怕的是他很少犯錯沒有情緒你不能知到自己是否已經 03/13 20:36

→ logus: 讓ai動搖 03/13 20:36

推 lolylolyosu: 小李復活我覺得沒話說但是阿發狗的防禦明顯掉太多了 03/13 20:40

→ lolylolyosu: 這我認為有問題不太可能黑51那邊明顯放給人殺的 03/13 20:40

→ Uizmp: 也許這就是穩穩的贏 vs 贏多一點以避免後面會出錯間的取捨 03/13 20:42

推 chiangburger: 重金聘請的測試工程師還真的找到bug~ 03/13 20:55

→ Marino: 以deepmind的原始概念來說它的系統每做一個動作 03/13 21:11

→ Marino: 它就要被告知分數是增減或不變 03/13 21:12

→ Marino: 也就是一個遊戲是單純的分數升降 deepmind通過學習就必勝 03/13 21:13

→ Marino: 但圍棋難的是每下一手並沒有明確的分數升降 03/13 21:13

→ Marino: 所以它才要估勝率來當做一種分數 03/13 21:13

→ Marino: 所以要修的重點就是估算這部分不然其他結構都是一樣的 03/13 21:14

→ Marino: deepmind也可以拿來玩星海只是同樣要給它一個算分系統 03/13 21:14

推 ilove88th: 演算法本來就有隨機性阿 03/13 21:56

推 ShenMue: 請問一下估計勝率這種東西有可能多報嗎？ 03/13 22:15

→ ShenMue: 例如它估計49%~79%，連它自己都不敢肯定會收斂到49還是79 03/13 22:16

→ ShenMue: 然後它就先吐79%給人看這樣? 03/13 22:16

推 DemonElf: 勝率本來就是一個統合比例了，怎麼會是一個範圍XD 03/13 23:59

→ birdy590: http://zhuanlan.zhihu.com/yuandong/20607684 03/14 00:01

→ birdy590: 這幾個輔助 MCTS 的網路很複雜也很敏感需要大量的調校 03/14 00:04

→ birdy590: "估計勝率"是計算的結果, 這盤棋的狀況顯然是出錯了 03/14 00:05