看板 CFantasy 關於我們 聯絡資訊
※ 引述《wizardfizban (瘋法師)》之銘言: : 回一下好了,但我要說我對AI的了解很淺,歡迎打臉。 : 單純說遊戲樹: : 遊戲樹就是你在遊戲中每面臨一個選擇時,每個選擇都能畫出分叉,一路下去就有如樹木 : 一樣,這棵樹就叫遊戲樹。 比較正確的名詞是決策樹 decision tree. : AI一開始對圍棋無解是因為圍棋是棋類中遊戲樹算大的,但後來在成功讓AI能選擇遊戲樹 : 特定區域運算的技術後,AI的棋力就開始上升了,最後打贏了人腦。 區域運算是非常早期的算法,這樣做的棋力很差。 從 AlphaGo Zero 的成長中,可以得到很明確的答案,征子是圍棋新手等級 就應該了解的一種圍棋方法,但它卻是一種全棋盤的策略。 所以 AlphaGo Zero 在發展出大量複雜的圍棋手法和定石之後,才學會如何 應對征子。 也就是說對人腦簡單的事情,對電腦來說不一定簡單,使用區域運算方法的 電腦圍棋,都會輕易被哪怕最簡單的全局策略所打敗。 圍棋的決策樹太大是根本問題,所以剪枝方法是其中的關鍵,粗暴硬剪必然 會產生漏洞,早年用專家系統的方式,沒學過就不會下,更是常被極少見的 下法打臉。 最先成功有效的方法是蒙地卡羅樹搜尋法,簡單來說就是隨機選點,在相同 深度的搜尋下失敗次數愈多,進一步搜尋的機率就愈低。 蒙地卡羅方法的基本問題是深度有限,如果一個有效應對的步數超過搜尋的 深度,就無法被發現,目前的電腦圍棋設定大約是二十步。 但這樣對於電腦圍棋來說仍然剪枝不夠,這使得大部分使用蒙地卡羅方法的 圍棋程式,都採用在對方落子處臨近的地方優先選點的方式,不使用純然的 隨機選擇,或者說建立一個有差異性的選點機率函數,取代每個點都有相同 機率的原始做法。 接著很長一段時間,就是開發者用人工的方式微調機率函數,以及排除顯然 不必要和錯誤的選點,電腦圍棋的棋力在這個狀況下緩緩進步。 最後機器學習就在這個地方被引進了,預設的機率函數和人工方法,被使用 歷史資料學習而得的選點程序所取代。 然而機器學習的本身也是需要經過大量運算的,一開始並沒有顯現出比加強 蒙地卡羅方法的運算量的優勢,所以並沒有成為主流方法。 直到 DeepMind 公司使用新的深度學習模型,在其他遊戲中取得令人驚豔的 成果,這個方法才真正被用力實作在電腦圍棋上。 他們採取的是很聰明的做法,單一神經網路的機器學習模型運算成本太高, 那麼就拆成兩個,雖然可能損失具有結合性的部分,但運算成本大幅降低, 再用相當暴力的運算能力,電腦圍棋終於成功打敗了職業棋手。 也就是第一次登上 Nature 雜誌的 AlphaGo 。 在證明這個方向可行之後,此後就是在這個新模型上的各種加強。 而 AlphaGo Zero 則是在算法改進到相當程度後,覺得可以不用再使用兩個 神經網路,重新使用單一神經網路的方式,並改用新的深度殘差網路模型。 單一神經網路使得從零開始的學習真正可行,不然要讓兩個網路一開始就能 配合,會有很大的運氣成分。 : 所以接下來挑戰的目標是更複雜的遊戲 ─ 即時戰略 (RTS)。 : 但目前這個挑戰卡死了...... : 因為遊戲樹太大了,近於無窮大。 : RTS每一秒都要做出大量判斷,偵查、推測再應用到自己戰術上。對比於圍棋這種每回合 : 就是一動,而且遊戲盤面完全公開的模式,RTS要做的運算量太多了。 : 相對之下,人腦就是有法子判斷篩選出正確要注意的資訊而加以運用。 : 所以在RTS的挑戰中,AI目前被卡死了,很多相關學者正在一起努力尋找新的方向。 : 因此,在把變數限定到一定程度之下,AI的確贏過人腦。但在大量變數之下,AI目前不? : 。AI連星海爭霸中單純用作弊來戰鬥的死腦筋電腦對手都打不贏了。 : 也許有一天AI也會攻克RTS領域,然後再向別的領域發起挑戰。那時我們大概又會發現AI : 的極限...... : 我們對人腦的了解還是太少了。 理論上並不是運算量的問題,而是回饋和收斂的問題,圍棋可以加速運算, 下幾百萬盤不是問題,但 RTS 要玩幾百萬場,需要的時間就極為巨大。 而最初始的勝負回饋資料不足,就難以回饋到盤面的優勢判斷,更無法建立 整體策略的評估。收斂的問題也是,變數太多就很難和過往資料比較,也就 難以收斂出結果。 人類學習的效率至今仍遠遠超過機器,在數量短期填補不上的狀況下,如何 提升機器學習的效率,就成了下一個巨大的關卡。 並且單就 RTS 而言,人類有大量的知識,遊戲本身也依賴這些知識來設計, 這讓人類玩遊戲時,可以在一開始就能利用這些知識,獲得不錯的成績, 在學習上的優勢就更加明顯。 所以真的是很大的挑戰,這應該說是機器學習的算法問題比較大。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.28.99 ※ 文章網址: https://www.ptt.cc/bbs/CFantasy/M.1508402618.A.6D1.html
gibbs1286 : 不是傳言暴雪要和他們合作,把阿法狗丟到天梯去爬 10/19 16:47
innominate : 理論上只要暴雪把遊戲運算的libs給出來 10/19 17:00
innominate : 讓機器學習可以把遊戲速度加快,那他就能有效學習 10/19 17:00
gibbs1286 : 之前看到好像是希望與玩家對戰學習,而且還要限制霉 10/19 17:03
gibbs1286 : 限制操作速度 10/19 17:03
gibbs1286 : 以及開啟戰爭迷霧那些的影響 10/19 17:04
magamanzero : 應該說 如何學習是個關鍵 10/19 17:19
magamanzero : 舉例來說 阿法狗在打星海時 敵方玩家用機槍冰甩槍 10/19 17:19
magamanzero : 那阿法狗是否有辦法學習 或是 判定這是可學習 10/19 17:20
smart0eddie : 推 10/19 17:35
yohsiatai : 我還以為走錯版了呢~ 推推 10/19 17:57
lbowlbow : 再進一步大概就是「教育」了吧。像直接學會征子 10/19 18:01
darkbrigher : 總覺得天網就是這樣被搞出來的 美國還想玩無人艦... 10/19 18:14
gibbs1286 : 天網是未來科技導致的吧? 10/19 18:16
darkbrigher : 第三集 沒未來科技 美國軍方還是作了相關研究 並且 10/19 18:20
darkbrigher : 作死讓天網上線 於是.... 10/19 18:20
gibbs1286 : 第三集不就是研究第二集那隻嗎? 10/19 18:23
darkbrigher : 哪隻? 第三集作出來的全都不是人形阿... 10/19 18:30
gibbs1286 : 我記得第二集反派的計算模組是天網的研究基礎 10/19 18:35
darkbrigher : 所以第二集主角一行人就把相關資料加晶片全毀了阿 10/19 18:36
darkbrigher : 連那家公司都被炸彈炸了 10/19 18:37
darkbrigher : 連阿諾也因為自己腦袋裡還有晶片所以決定進鐵水裡 10/19 18:38
darkbrigher : 唯一破綻大概是還有一隻手留在工廠內 不過那也跟AI 10/19 18:39
darkbrigher : 無關 是美國軍方自己搞的 10/19 18:39
gibbs1286 : 我還是重看好了 10/19 18:39
cka : 可是現在不是就有電腦對手了 直接把電腦對手的判斷 10/19 18:48
cka : 輸入阿法GO 不就可以開始學習了? 10/19 18:48
franktpmvu : 如果直接拿電腦的來抄 那就不是自己學習 而是rule了 10/19 18:58
franktpmvu : 現在面臨的問題是決策太多 要怎挑好的決策來實行 10/19 19:02
franktpmvu : 如果直接拿現有電腦的來訓練,最後也只不過變成第二 10/19 19:02
franktpmvu : 個一模一樣的電腦 10/19 19:02
franktpmvu : 因為還是沒解決"怎選擇好的決策"這個問題 10/19 19:03
a29022792 : 暴雪不是已經提供阿法狗使用了嗎 也可以加速遊戲吧 10/20 03:37
cmss666 : Gibbs把T2記成T3了吧 10/20 06:00
hwider : 推推推推 10/20 13:02
RIFF : [問卦]#4李世石下出絕妙一手時 ALPHAGO沒看出來? 10/20 14:51
RIFF : 為何第四盤 在李世石下出絕妙一手時 10/20 14:51
RIFF : ALPHAGO第一時間沒看出來 或沒特別的反應 10/20 14:51
RIFF : 而現場轉撥的柯潔 卻第一時間就看出這手的不凡 10/20 14:51
RIFF : 古力將李世石78手稱為「神之一手」, 10/20 14:51
RIFF : AlphaGo大約在87手才發現它79手算錯了,其後Alph 10/20 14:52
RIFF : aGo在97手時更出現入門級別的錯誤 (WIKI) 10/20 14:52
RIFF : 從這點 是否可以說: AI的邏輯 跟人類的邏輯有不同 10/20 14:52
RIFF : 怎麼不同? 10/20 14:53
RIFF : 邏輯上該如何定義:絕妙的一手? 10/20 14:53
RIFF : 或者說:ALPHAGO其實某程度上來說比李世石與柯潔弱 10/20 14:53
RIFF : 只是ALPHAGO的下棋法跟一般人類不同,造成人類難以 10/20 14:53
RIFF : 適應而落敗? 10/20 14:53
RIFF : 也就說:ALPHAGO強在穩定性與適應力、與人類目前尚 10/20 14:54
RIFF : 未適應的特殊棋風? 10/20 14:54
Kazimir : 只是瞎猜 不過我認為97手那個入門錯誤肇因於蒙地卡 10/20 16:57
Kazimir : 羅搜尋 我之前刻minmax的時候在末盤有類似的狀況 10/20 16:58
Kazimir : 在必輸的情況下就隨便選了 10/20 16:58
raiderho : 36樓指的錯誤是演算法不夠周延,更後頭的錯誤是寄望 10/20 22:01
raiderho : 人類能夠下錯一手的大翻盤,但是人類棋手不太可能發 10/20 22:01
raiderho : 生這種低級錯誤。你說的思維差異出自於:人類想用人 10/20 22:01
raiderho : 類的方式(比如更加少量的計算)解讀運算結果,目前都 10/20 22:02
raiderho : 還是需要藉由 domain knowledge, 一層一層分拆 10/20 22:02
raiderho : 以棋力而言,alphago遠在人類之上,你的問題偏向對 10/20 22:28
raiderho : 運算結果的解讀性,這一直是類神經網路的公開大問題 10/20 22:28
RIFF : 1.感謝回覆 10/21 18:01
RIFF : 2.所以是'演算法不夠周延'--那可不可以談談:絕妙1手 10/21 18:02
RIFF : 須要用到甚麼特別的演算法 10/21 18:02
RIFF : 3.人類可不可能漸漸適應AI的棋風? 10/21 18:04
raiderho : 回2,李世石跟幾個月前的master版本下,根本沒有機 10/21 23:49
raiderho : 會下出絕妙一手就被一路被壓著打,差距太大了; 10/21 23:49
raiderho : 回3,你似乎有些誤解,人類已經不可能追上AI的棋力 10/21 23:55
raiderho : 了,以後只會和頂尖AI的差距越來越大,這和棋風無關 10/21 23:55
raiderho : ,和計算能力有關。只要一個問題被機器學習突破,人 10/21 23:55
raiderho : 類學習的速度趕不上機器學習改良的速度 10/21 23:55
Kazimir : 我不會下圍棋 不過我相信一步好的棋代表的是能夠 10/22 12:19
Kazimir : 為後續帶來更多空間 和提升比較多勝率的步數 10/22 13:05
Kazimir : 對AI來說 每一步都是最大化勝率必須的過程吧 10/22 13:06