推 NaoGaTsu: 推這篇,實際上八九不離十。 03/14 18:04
→ ilw4e: 對阿,所以才說這種機制對人類來說反而更容易維持優勢 03/14 18:07
推 profyang: 對腦不是選得利最大的吧 是選勝率最大的 03/14 18:11
→ goldduck: 如果這樣的話 那一開始就出現一堆這種棋了 但是可惜都沒 03/14 18:12
→ goldduck: 有 03/14 18:12
→ profyang: 你這假設是a和b犯錯率差不多 但是如果犯錯率不一樣呢? 03/14 18:12
→ profyang: 更何況今天這盤電腦開始起笑的時候他還沒輸 就自己算不 03/14 18:12
→ profyang: 清楚就開始發瘋了 03/14 18:13
首先,我們回憶一下 Demis (Deepmind CEO) 的 Twitter
thought it was doing well, but got confused on move 87.
We are in trouble now...
Mistake was on move 79, but #AlphaGo only came to that
realisation on around move 87
When I say 'thought' and 'realisation' I just mean the output of
#AlphaGo value net. It was around 70% at move 79 and then dived on move 87
他在這裡用了 "dived" ,我猜勝率可能只有 30% 之類的,
再來要說一下「勝率最大」這件事 -- 這其實是錯的。
在 paper 上說的其實是
Once the search is complete, the algorithm chooses the most visited move
from the root position.
當搜尋完成後,演算法會選擇「被造訪最多次」的下一手。
我記得古力在轉播時點目,應該差了 10 目以上,換句話說, AlphaGo 要覺得勝率高,
也是要追回十目才行。
現在有兩個分枝:
a 分枝有一手對手可能應錯,追回一目,所以勝率還是 30% 左右
b 分枝有一手對手可能應錯,追回十目,勝率一下回到 50%
在這種情況下,AlphaGo 可能會對 b 分枝更有興趣所以做了更多的搜尋,所以 b 分
枝被造訪了更多次,最後選擇了 b
※ 編輯: stimim (72.14.230.41), 03/14/2016 18:31:17
→ ilw4e: 那邊人算覺得不明,也許電腦已經估自己勝率掉到很低了 03/14 18:17
推 MicroB: 就是要把她打成豬頭連他媽(Aja大神)都不認得她才能逼瘋AG 03/14 18:20
推 kurc: 推,觀念很接近這樣,因為電腦是自己和自己對練來做learning 03/14 18:23
推 Verola: 邏輯上很合理 03/14 18:27
→ vencil: 我也是這樣想,所以AlphaGo落後時反而可能下的跟豬一樣 03/14 18:35
→ birdy590: 這程式根本從頭到尾都不知道什麼叫目數 03/14 18:36
→ stimim: 他的確不知道,可是他覺得「會贏」,其實就是目數要比較多 03/14 18:38
→ stimim: 所以如果一個變化的目數追不回來,value network 的分數 03/14 18:39
→ stimim: 大概也不會太高 03/14 18:39
推 anjackie: 所以其實alphago如果建立賽局理論的模型是否可修正bug? 03/14 19:11
推 broodworld: 要到確定輸才會下怪,前幾盤落後棋盤大很會追 03/14 20:01
推 pttview: 如果是這樣那對練時不就知道了... 03/14 20:30
→ aaaba: 你的意思是alphaGo有“對手若應錯”的概念嗎?在論文哪裡? 03/14 20:57
我們所說的「對手應錯」,在 ALPHAGO 的理解應該是「對手沒有下出最好的一步」
但是我不確定電腦是否可以「合理的估算」這種事情發生的機率。
這裡所謂的合理是對人類而言合理。這種事情不跟其他人下棋,電腦自己跟自己下是
很難學到的。
在論文中,搜尋時,如果我們搜到盤面 s_t ,想要決定下一步 a_t ,
那決定方法是:
a_t = argmax_a (Q(s_t, a) + u(s_t, a))
Q(s_t, a) 是在盤面為 s_t 時,對可能的下一步 a 的評分。
而 u(s_t, a) 則是一個調整搜尋方向的函數,他和
1. policy network 的評分有關 (正相關)
2. 這個狀態被搜尋過幾次有關 (負相關)
所以對人類來說不可能下錯的地方(就假設是 s_t, a_e 好了),
可能 P(s_t, a_e) 很低,Q(s_t, a_e) 也很低,
但隨時間過去,搜過的點越來越多,就他一直沒被搜過,他的分數
可能就「相對的」高了,這個狀態就被搜到了。然後因為這一步讓
對手大損,value net 的評估就變好了,可能會讓他更想找這一個
分枝的後序,然後就壞掉了…
當然,這還是猜測,一切都要看 log 才會準。
※ 編輯: stimim (72.14.230.41), 03/15/2016 11:03:38