Re: [討論] 電腦弱點：中腹有打劫可能的複雜生死戰？

作者ilw4e (可以吃嗎？)

看板GO

標題Re: [討論] 電腦弱點：中腹有打劫可能的複雜生死戰？

時間Mon Mar 14 17:25:33 2016

※ 引述《Vonix (台灣大賭場歡迎您)》之銘言： : 我嘗試用一句話來講ALphaGo的弱點 : 昨天AlphaGo第一次暴露出弱點，不知道是不是李世石有意為之？ : 李世石在左右方都避開了戰鬥，卻在大局不利時才在中央掀起戰鬥， : 從盤後解析可以看出，白78神手挽回了局面，但若黑棋應對得宜， : 局面其實還是細微；但卻造成電腦崩潰自爆。 : 從機器的角度來理解，中腹戰鬥比邊角更複雜難算，且昨天的例子有 : 可能形成大劫爭（但打下去黑棋整體也沒有不利），電腦在這種CASE : 爆掉，不知道第五盤李世石會不會再度製造這種局面？我覺得人一開始誤會了電腦的強處與弱處，也許是小李前幾盤一直無法突破的關鍵。多數人覺得電腦布局或大局觀應該很弱，因為變化太多，但這可能反而才是電腦的強處。人類學布局的棋書通常是給幾個選項讓人去分辨哪個點更大，但這其實很難估計的，很多解只是方向配合或"感覺上"較佳，是否如此難以驗證。但電腦是用海量的模擬資料的勝率來決定落點，假設電腦是九段實力。他自我對弈了那麼多盤，如此選出的著點更準確是頗有可能的。所以這幾盤看得出電腦對厚勢的利用或是對弱棋的處理下得非常好。當然電腦應該不知道厚勢是甚麼，但他用海量的模擬下去就會發現某些著點因為能和厚勢搭配自然勝率高。而電腦也會適時補弱棋，因為模擬後應該會發現不補會讓勝率下降。而電腦真的不及人類的可能反而在於攻殺，而且是要較大範圍延伸且手順較複雜的攻殺(範圍太小電腦的模擬應該可以把所有情況都跑完)。一開始多數人都假設電腦對於攻殺的細算應該不可能出錯，因為可以暴力窮舉法，但正因為AG不是用窮舉法，反而高段棋士對於區域的細算會更接近窮舉法，也就是更接近圍棋上帝，所以可以占優。人在算攻殺的時候靠經驗可以把可能落子侷限在非常少數的著點，並且細算其中所有變化。而且變化中可能部分手順是固定的，對人來說又把問題變簡單很多。但對電腦來說其他各種不相干的點他都要考慮，人類所謂的必然解對他來說也不是必然(像小李昨天說只此一手，AG字典裡絕對沒有只此一手這種事)，自然有機會選錯點或誤判情勢。第二盤的左下處理或昨天中間被手筋一挖就當機都是這種較大範圍的攻殺。前幾盤看得出來電腦是能走厚就走厚，能補棋就補棋，沒甚麼機會讓小李搞出複雜攻殺，到昨天才第一次出現。電腦好似還有一個問題就是落後時下出的各種大虧損無理手。當然可以理解電腦的邏輯就是：這樣下你不應我就贏了所以勝率很高，但這對人類是沒用的。相對於之前有人假設電腦落後會變更強因為要追回來，目前看起來反而是電腦落後就走遠了，因為它的追棋方式對人類來說是毫無意義的只會讓自己越虧越多勝機越渺茫。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.51.208 ※ 文章網址: https://www.ptt.cc/bbs/GO/M.1457947536.A.234.html

推 papawalk: 這論點很有道理 03/14 17:32

推 birdy590: 還有一個可以利用的明顯弱點, 就是棋手跳出一般作戰區域 03/14 17:35

→ birdy590: 時, 可能造成 MCTS 前面計算的結果全部作廢要重新計算 03/14 17:35

→ aaaba: alphaGo下一手的候選機率也不是集中在局部區域 03/14 17:38

→ birdy590: 所以有先手的時候可以選擇適時換邊攻擊, 佔電腦的便宜 03/14 17:38

→ birdy590: 通常都是至少排在後面的棋步算的深度就不會一樣 03/14 17:38

→ birdy590: 尤其是中盤之前因為選擇性太多平常不可能都算的很深 03/14 17:39

→ goldduck: 毫無意義會自殺的棋要用機制擋住 03/14 17:40

→ birdy590: 樓上還是沒搞懂啊... 這種違背開發原意的事情不可能做的 03/14 17:41

→ birdy590: 最多再設計一些訓練方式想辦法教會它... 03/14 17:42

→ goldduck: 這是安全機制加進去有什麼問題嗎 03/14 17:42

→ birdy590: 其它開發者也注意到它完全不理會局部死活和對殺分析 03/14 17:42

推 s9209122222: 這樣就不是他自己學會了… 03/14 17:42

→ birdy590: 因為不是要製作圍棋軟體, 而是想辦法教會這套系統下圍棋 03/14 17:43

推 ForeverOrz: 推這篇某人的發言真的可以不用理會夏蟲語冰 03/14 17:43

→ goldduck: 不然征子就要跑嗎 03/14 17:43

→ s9209122222: 這軟體下圍棋只是順便 03/14 17:43

→ birdy590: 過程中發現問題設法改良, 將來都可能直接用在其它領域 03/14 17:44

→ birdy590: 如果只是下棋的話, 哪會有這麼多大公司相繼投錢進來研究 03/14 17:45

推 sadmonkey: 其實安全機制也沒說錯，今天會發生勝率狂跌就相當於發 03/14 17:48

推 NaoGaTsu: 除了最後的應手部分推論怪怪的，基本上蠻合理的。 03/14 17:49

→ sadmonkey: 生超出原先AI預期的情況，就圍棋來看AI的處理還有很大 03/14 17:49

推 Uizmp: AG有發現勝率狂跌啊, 只是已經來不及了 03/14 17:49

→ sadmonkey: 的進步空間，就像電動車總不能突然有個突發事件，車子 03/14 17:50

→ goldduck: 本來就要考慮安全機制好嗎一個沒有安全機制的系統是能 03/14 17:50

→ goldduck: 商業化？ 03/14 17:50

→ sadmonkey: 突然加速去撞牆壁吧 03/14 17:50

推 wnglon: 要注意設安全機制也是會把好棋下爛 03/14 17:51

推 Uizmp: 問題是現在沒有要商業化啊, 現在單純只想看ML的效果而已 03/14 17:51

→ wnglon: 這不是雖便說說就能做到 03/14 17:52

推 NaoGaTsu: AlphaGo從一開始就沒有要商業化，那只是研究人工智慧中 03/14 17:52

→ birdy590: 現在還研發階段加上這種安全機制反而就看不出問題了 03/14 17:52

→ goldduck: 既然要談這個原來不用加安全機制那谷哥的自動車你可以 03/14 17:52

→ goldduck: 去做了 03/14 17:52

→ NaoGaTsu: 限之一的「圍棋」罷了。 03/14 17:52

→ birdy590: 發現問題直接想辦法掩蓋掉不算是什麼好方法吧 /_\ 03/14 17:53

→ NaoGaTsu: google的無人車是已經有在做了啊，只是還沒量產商業化 03/14 17:53

→ wnglon: 你要設定好的安全機制前題你實力要有李世石水準才行 03/14 17:53

→ birdy590: 直接找到問題的根源並且想辦法改進才是上策 03/14 17:53

→ wnglon: 沒法理解棋理要怎麼定義好的安全機制 03/14 17:54

推 sadmonkey: 問題的根源通常比想像中的複雜太多也太困難了 03/14 17:55

→ birdy590: 其實 AlphaGo 現在的架構比較接近工藝製品, 元件都是 03/14 17:56

→ birdy590: 別人做過的現成理論, 但是湊起來整合的部份沒有人做過 03/14 17:56

推 wnglon: 這種非統計程式設計通常比需要對該領域非常熟悉才行 03/14 17:56

→ birdy590: 這中間有太多可以調整的東西, 給他們一點時間解決吧 03/14 17:56

推 sadmonkey: 裡面有太多細節，包括MC法中常為了效率而會沿用前幾步 03/14 17:57

→ birdy590: 已經算過的東西, 盤面沒有改變能用的一定是直接繼續用啊 03/14 17:57

→ birdy590: 所以我才會說可能狀況下設法儘量跳出原有的樹有便宜佔 03/14 17:58

→ sadmonkey: 的支狀來幫忙運算，就下圍棋獲勝這個議題，目前看來就 03/14 17:58

推 blackwindy: 只是單純工藝是上不了nature的他還是有創新的地方 03/14 17:58

→ blackwindy: 至少他湊的起來而且證實有效一般亂湊下場就是垃圾 03/14 17:58

→ birdy590: 整合這些不同領域的技術沒那麼容易, 所以才會被認為至少 03/14 17:58

→ sadmonkey: 還有改進的空間，而安全機制是一個較快能解決的方向 03/14 17:58

→ birdy590: 技術上領先一年以上... 很多過程都得靠嘗試錯誤 03/14 17:58

→ birdy590: 競爭者以它的論文作為起點出發, 也不是沒有可能趕上 03/14 17:59

→ goldduck: 損棋自殺棋不下加進去檢查這沒有很困難 03/14 18:00

→ birdy590: 什麼叫損棋自殺棋? 不做死活分析意思已經夠明白了吧 03/14 18:01

→ goldduck: 人家都有安全機制送菜棋也是不下的 03/14 18:01

推 sadmonkey: 隨便舉一個方法，也許要多弄幾組黑貼目不同的決策函數 03/14 18:01

→ sadmonkey: 當勝率低於40%時用不同的黑貼目策略來下，就可以改善一 03/14 18:02

推 birdy590: 就算真要做他們應該也會選擇想辦法教會電腦什麼是死活 03/14 18:02

→ sadmonkey: 次想直接逆轉的模式，而能靠著一步步慢慢追目來獲勝 03/14 18:03

→ birdy590: 可能的改變是調整不同時期的權重, 現在是固定 0.5/0.5 03/14 18:03

推 wnglon: 簡單的程式判斷都是用 && == <= >= 03/14 18:03

→ Uizmp: 只能說, 電腦下棋的數量還遠遠不夠啊 (? 03/14 18:03

推 MicroB: 那應該把布局書丟了學alpha流布局等到中盤在用人類算法XD 03/14 18:03

→ birdy590: FB 的田博士認為這不一定好(他選擇完全不用估值網路) 03/14 18:04

→ sadmonkey: 目前的AI還不是完全靠自我學習出來的，很多策略都還是 03/14 18:04

→ wnglon: 你有用過嗎參數怎麼設定演算法怎麼設計不是隨便說說的 03/14 18:05

→ ilw4e: 現在AG這個死活不懂純靠棋感跟機率就能把職9殺成這樣真的猛 03/14 18:05

→ goldduck: 型是判斷本來就會加入死活判斷 03/14 18:05

→ wnglon: google應該能想的到只是沒這麼簡單 03/14 18:05

→ birdy590: ? 走子網路/rollout/估值網路都是 100% 學習得來 03/14 18:05

→ sadmonkey: 沿用棋譜，要完全從知道規則用亂數開始學可能要花很多 03/14 18:05

→ birdy590: 人類做的事情是儘量幫助它有效率的學習 03/14 18:06

→ sadmonkey: 年，google執行長也說了這是他們未來的目標 03/14 18:06

→ goldduck: 不作死活分析就無法知道局勢好嗎 03/14 18:07

→ sadmonkey: 基本策略函數還是從人類棋譜當初始條件 03/14 18:07

→ birdy590: 田博士也覺得很厲害因為這個估值網路有表現出死活判斷 03/14 18:07

→ birdy590: 的能力只是看來還有些缺陷 03/14 18:07

→ sadmonkey: 要讓電腦從亂數下點了解到星位最佳絕對不是三千萬盤能 03/14 18:08

→ sadmonkey: 知道的，那可能是數億數百億盤的天文數字 03/14 18:09

→ birdy590: 這裡的"三千萬盤"其實是指訓練估值網路的過程, 但是 03/14 18:09

推 profyang: 同意大型攻殺電腦要算清真的也不是很容易的人類未必會 03/14 18:09

→ profyang: 輸... 03/14 18:09

推 wnglon: 下錯一步就全死即使下的順序不一樣 03/14 18:09

→ birdy590: 估值網路不見得是必需品(這部份被認為是最近才加進去的 03/14 18:09

→ birdy590: 所以可靠度可能不如之前就完成的其它元件) 03/14 18:10

→ wnglon: 這電腦下法這麼跳躍會全下對嗎 03/14 18:10

推 sadmonkey: 也許我記錯了，不過之前訪談有提到下次目標是從零開始 03/14 18:11

→ birdy590: 不是要全下對這部份要保留隨機性才好否則反而會變弱 03/14 18:11

→ birdy590: 它是希望訓練過程出現各種各樣不同的狀況所以前期用 03/14 18:11

推 wnglon: 跟星海ai玩只要夠偷玩死對方不是難事 03/14 18:12

→ wnglon: 不知能不能應用在圍棋上 03/14 18:13

→ wnglon: 只要偷到一個重要的棋局勢就會崩盤 03/14 18:14

→ birdy590: SL網路確保走子有多樣性, 後面再改用RL走到完提高精確度 03/14 18:14

→ wnglon: 只是第三盤的劫殺李40看樣子是輸了 03/14 18:15

→ wnglon: 不過也是因為時間不夠 03/14 18:16

→ birdy590: 這種作法是不是夠好目前沒人知道所以才需要測試工程師 03/14 18:16

→ goldduck: 有點機率用偷的方式 03/14 18:16

推 FrozenMoment: 覺得可以加入危機意識網路，當有危機時啟動深入分析 03/14 18:23

推 aegis43210: 圍棋真的是一個很好的測試AI水平之競技 03/14 18:28

推 bbbtri: 實戰測試的前提是要拐到一流的棋手陪你玩啊 lol 03/14 18:42

→ goldduck: 如果看到職業看到97 101應該是不會來下的 03/14 18:54

→ birdy590: 職業棋士如果看了覺得很弱很簡單, 真的上去會死的很難看 03/14 18:55

→ goldduck: 不過第四盤可以確定谷哥測到他想要的一些額外的事 03/14 18:55

→ birdy590: 對照當時局面那一連串參數變化, 對未來改進方向很有價值 03/14 18:57

推 MicroB: 不過蠻好奇AJA沒有測過讓AG在極劣下下過棋嗎?還是說不是每 03/14 19:00

→ MicroB: 一種劣勢AG都會發瘋? 或是97手時李世石贏的其實比想像還多 03/14 19:01

→ ilw4e: 這樣想用雪崩類複雜定石也可能可以婊到電腦 03/14 19:18

推 MicroB: 可是如果是定石 AG的走子網路來自職棋不容易錯吧? 03/14 19:20

→ ilw4e: 職棋棋譜數量應該不足把複雜定石變化都走完，加上AG又有自 03/14 19:26

→ ilw4e: 己神奇的判斷，定石走錯一手崩盤應該有機會:D 03/14 19:26

→ bbbtri: DeepMind老闆說他們沒用職業棋譜只用業餘棋譜 lol 03/14 19:30

→ birdy590: SL 網路的目的不是要多準有個大概也就行了 03/14 19:31

推 wnglon: 這很合理啊因為開發者有人只到業餘高段 03/14 19:32

→ wnglon: 演算法要設計的好也要設計者很懂圍棋 03/14 19:33

推 danibaba5566: 那種無理手都是線上下棋會遇到的賴皮棋，真沒看到是 03/14 19:49

→ danibaba5566: 會逆轉 03/14 19:49

推 broodworld: 雪崩應該沒機會,看13盤就知道了,大攻殺會變單行道 03/14 20:10

→ broodworld: 24盤穩穩走的比較有機會,因為次一手分布很廣 03/14 20:11

→ ilw4e: 我們覺得"單行道"電腦不見得覺得是，加上周遭點夠多混淆它 03/14 20:13

→ ilw4e: 或許會有下錯，也是猜測而已因為定石幾乎都人類窮舉法最 03/14 20:14

→ ilw4e: 佳解，電腦既然不懂這個要靠模擬是有機會推不出來的 03/14 20:15

推 broodworld: 所以我覺得雪崩妖刀或開頭大攻殺沒機會,把譜上輸的著 03/14 20:24

→ broodworld: 手濾掉就好,反而是大模樣爆破比較不好運算 03/14 20:24

→ broodworld: 被爆的位置太隨機了 03/14 20:25

推 terminator3: 推 03/14 20:43

推 Roger0123: 蠻合理 03/14 22:10

推 Vonix: 認同 03/14 22:14

→ mothertime: 雪崩alphago好像會主動避開 03/14 22:22

推 BRANFORD: 樊麾表示 03/15 02:35

推 Rhomboid: AG要「學」會安全機制，而不是「教」他安全機制 03/15 09:23