精華區beta C_Chat 關於我們 聯絡資訊
※ 引述《Emerson158 (紅豆 X 八嘎 X 烏魯賽)》之銘言: : 文章中如此寫道 : 雖知道早有AI戰倒人類高手群的一天, 自從AlphaGo驚艷表現開始 : 只是沒想到這麼快 : 下一步真的要挑戰星海爭霸了嗎? : 這是即時戰略,感覺有點恐怖啊.. 個人只是看過一些簡報介紹, 但我覺得阿發狗的壓倒性實力應該沒那麼絕望才對。 以前西洋棋被電腦演算直接暴力破解, 原因在於合法步少,對手的下一手反制只有2X步可能, 圍棋的合法步多,前幾手對手的反制有200步以上的可能。 然後西洋棋的好步就是成功的殺死對手的棋子+國王, 圍棋的好步眾說紛紜,就連佈局來說不同的棋手就有各自不同的審美觀。 雖然人類已經神乎其技的知道自己的佈局在爭奪N個目的地, 但兩個不同的N相比起來,還是會很微妙的難以判斷哪方優劣。 所以圍棋比賽沒有足夠時間被暴力破解, 於是就變成阿發狗利用評價網路來建立圍棋的審美觀, 也就是把人類棋手應對的"好步"記起來, 利用這些好步跟有限的計算來擊倒對手。 原本我在想既然餵養阿發狗的食物來源也是人類創造的, 那麼阿發狗為什麼會這麼容易的擊敗世界頂尖的好手呢? 我在猜測其實職業棋手一場比賽其實"好步"的數量沒那麼多, 相較阿發狗則是利用他的評價網路希望他每一手都是好步(但可能也是部分而已) 會有這種猜測是這五十場勝利之中,其實有幾場是幾目的勝負, 而且都是在前中期阿發狗被評論大幅領先,在後面被人類追上。 我認為會有這種異常狀況出現,可能在於一部分的賽局都以投子結束, 等於在最後收官階段給阿發狗餵養的資料不夠多, 因此目前人類在後期的計算跟審美仍然略優於阿發狗的關係。 --- 所以我覺得阿發狗本身還是以人類判斷這是好東西, 才有辦法下出好的判斷。 至於現在對於阿發狗本身介紹的系統中, 很難想像超越人類的棋步或者自己從另外一隻阿發狗學到東西。 至於像星海的第一次偵查,什麼時候出去可能大家有定論 但出去上敵人的平台怎麼繞、該繞到甚麼、什麼狀況可以判斷對面失誤, 好像一般玩家各自的審美觀跟習慣就不同了... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.2.21 ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1483591344.A.96F.html
flysonics: AI如果要架構在RTS上面的話 應該一開始只能先做快攻吧 01/05 12:45
flysonics: 不然到了後期兵一多又是即時的 NN應該是來不及算 就算 01/05 12:45
flysonics: 他是用另一個策略weighting也一樣 01/05 12:46
intela60474: 兩隻阿發狗無限對弈 就沒有你說的問題 01/05 12:46
WindSpread: 聽說master版本的alphago訓練時用的棋譜全是自己跟自 01/05 12:47
intela60474: 不用怕來不及算 參數訓練好後面只是代入解數學 01/05 12:47
WindSpread: 己下出來的 01/05 12:47
tsubasawolfy: 他平常就自己跟自己下了...去年的資料不是都有說 01/05 12:47
xxxxae86: 他們一定做過像樓上說的事情 01/05 12:47
Aatrox: 你講的是舊版狗 新版狗完全沒看人類棋譜 01/05 12:47
flysonics: 評價網路還是要即時算勝率啊 01/05 12:48
xxxxae86: 結果還是要找人來debug你就知道跟人類對弈才是下一步的 01/05 12:48
xxxxae86: 重點 01/05 12:48
flysonics: NN只是拿來學習強者棋手的好步而已 01/05 12:49
intela60474: 人類後期能拉回應該是因為前期資訊對人類來說不足 01/05 12:49
intela60474: NN太粗糙 1萬層NN來訓練差不多 01/05 12:50
flysonics: 一個拿AI來練蠱的概念wwww 01/05 12:50
intela60474: 一萬層是隨口說說 總之是要多層 =深度學習 01/05 12:52
sarevork: 正常來說是越來越絕望 因為人會累XDDDDDD 01/05 12:53
flysonics: ....NN一直都沒有人只玩一層的 你去看NN的paper 01/05 12:53
intela60474: 應該說AI每下一盤就會變強一點 01/05 12:54
flysonics: 會改深度學習這個名詞一來是weighting的方式有經過簡化 01/05 12:54
flysonics: 二來是他們說paper只要掛NN就會被當垃圾 只好換個名詞 01/05 12:55
a1s2d342001: 機器一天下的數量就比人一生還多了 01/05 12:56
meredith001: 原來如此 那賭神開示過了 先用500局來欺騙電腦 01/05 12:56
intela60474: 500局在訓練資料裡佔的比重微乎其微 01/05 12:57
intela60474: 我們在這裡推文的當下 已經不知道訓練幾局去了 01/05 12:57
sarevork: 大概一個月的封閉對弈等於50年的人類對弈吧 01/05 12:59
henry1234562: 這篇最大錯誤是 認為贏得目數少是ai經驗少 01/05 13:08
henry1234562: ai只有贏和輸 沒有贏多跟贏少 01/05 13:09
henry1234562: 當一步棋會讓他從80%贏20目變90%贏半目 ai就會走 01/05 13:10
henry1234562: 這也是為什麼一堆選手中盤認輸 當他看到ai處處退讓 01/05 13:10
henry1234562: 自己算一算就知道 剩下怎麼樣都輸定了 01/05 13:11
henry1234562: 也就是 ai後面讓你追 是因為你追了還是輸 01/05 13:12
a774532087: 推henry大的論點 01/05 13:20
f222051618: 樓樓上突破我盲點了 01/05 13:20
shintz: AI:來追我阿 阿哈哈哈~~ 01/05 13:36
suhorng: AlphaGo 跟自己對弈的場數超級多啊XD 01/05 13:38
joy3252355: 只有我覺得這篇原po有錯誤認知嗎 ??? 01/05 13:42
oldriver: alphago都開影分身對打練經驗值 人類已經不重要啦 01/05 13:48
fei6409: 最後一段看來是搞錯什麼了 XD 01/05 13:58
henry1234562: 不是只有你認為 這篇錯的很多 01/05 14:00
shinwind: 這篇就是標準人類的觀點.就連學習這件事情上都是 01/05 14:10
s101881: 這篇不對吧 01/05 14:38
gmoz: .... 01/05 15:17
tiefblau: 只看過一些簡報就不要出來丟臉 01/05 16:33
coldfirecf: 完全搞錯原理的不要丟臉 01/05 18:22
gy3310: 搞錯太多了 01/05 21:39
alen82515: 那些簡報只有說一般AI的運作,alphago跟它們有如天壤 01/06 02:45
alen82515: 之別 01/06 02:45