[新聞] AlphaGo能否挑戰星海？DeepMind首次詳解

作者joanzkow (星浪)

看板StarCraft

標題[新聞] AlphaGo能否挑戰星海？DeepMind首次詳解

時間Mon Jan 29 23:56:10 2018

擊敗圍棋選手的AlphaGo能否挑戰《星海爭霸》？DeepMind科學家首次詳解經濟觀察網記者沈怡然以開發AlphaGo征服了圍棋選手李世石和柯潔而馳名世界的Deepmind公司，2014年就被穀歌以6.6億美元收購。2016年11月，公司曾宣稱將以AI挑戰《星海爭霸》與玩家對抗。 2018年1月28日，DeepMind研究科學家Oriol Vinvals在《麻省理工科技評論》與DeepTech 深科技主辦的新型科技峰會EmTech China上發表了題為《AI對戰星海爭霸勝算幾何？》的演講，首次面向中國詳細解讀了該專案，並就此與麻省理工科技評論人工智慧領域資深編輯Will Knight進行了討論。他提出了資料和任務在研究機器學習和人工智慧領域的重要性；並介紹了基於AlphaGo在深度強化學習方面取得的突破性成就；現在在機器學習如何戰勝《星海爭霸II》的玩家是科學家們正在研究的話題。以下內容摘自Oriol Vinvals現場演講。 ——編者按在我還是伯克利大學學生的時候，就玩過《星海爭霸》。我和很多伯克利分校的同事在 2010年開始做這個研究，當時我們在想的是如何爭霸、如何打敗敵方。《星海爭霸》是我們應用AI技術的一個出發點。在這個過程中，我們看到了很多挑戰，因此我們需要很多創新的演算法。需要更多的研究人員參與進來，設計一些新的問題和任務，看能否完成。我們會訓練整個系統，收集整個星海爭霸玩家的行為進行分析。比如哪些走法可能沒有優勢，哪些玩法過於簡單。現在我們會為玩家提供一些打《星海爭霸》最簡單的走法。遊戲《星海爭霸II》我們非常感興趣，這是非常有趣和複雜的遊戲，這個遊戲基本上是建造一些建築物以及單位，在同一個地圖裡不同的組織會相互競爭。在這個遊戲中，哪怕只是建造建築物，也需要做出許多決策。而除此之外，我們還要不斷收集和利用資源、建造不同的建築物、不斷擴張，因此整個遊戲非常具有挑戰性。與下圍棋類似，在《星海爭霸》遊戲中，我們也在使用強化學習。要模仿人類玩這個遊戲的方式，但即使是模仿人類點擊滑鼠和敲擊鍵盤的行為也非常困難。為此，我們引入了一個遊戲引擎。和圍棋任務最大的不同在於，圍棋可以看到整個棋盤，但是在《星海爭霸II》中我們通常無法看到整個地圖，需要派小兵出去偵查。而且遊戲是不間斷進行的。整個遊戲甚至會有超過5000步的操作。而且對於增強學習，除了上下左右這些普通的移動，我們發現用滑鼠點擊介面控制不同物體的移動以及不同的行為，也是非常難的。我們發佈了這個環境，所有人都可以參與其中。我們也發佈了相關的報導，這基本上是一個開源的平臺，大家可以測試自己的演算法。我們還沒有完成過整局遊戲，但是完成了操作《星海爭霸II》比較重要的7個操作，比如選擇一個單位並讓它移動過去。我們所使用的演算法能做到這一步，而且和人類玩家操作的效果基本一樣。而另一些任務，比如建造建築、收集資源等，仍然是比較難的。我們測試的演算法，表現會比隨機的環境要好，但和專業玩家還是有一段距離的。有學徒式的學習方式。比如說在玩圍棋的時候，有自我的教學模式，從零級開始自學。但是玩《星海爭霸》的時候，我們不是從零開始，已經是在一定的基礎層上面來進行學習了。另外很多玩家他們還會考慮到一些網上的附加服務，大家會去觀察別人玩遊戲的方式，他們怎麼樣去移動滑鼠等。我自己也是個玩家，我也會關注別的玩家動滑鼠的方法、別人的遊戲行為。這對加強學習是一個新的關注點。比如說我自己玩遊戲的時候，可能我不能一直獲勝。那麼我還去觀察很多，我輸的時候會在遊戲的末尾觀察哪個人物角色會獲勝，通過觀察一些專業玩家的行為分析這些遊戲過程中的關鍵點。這也能説明我們進行類比學習，以及資料監管式的學習。對於《星海爭霸》，我們做開源，一開始是設計到了圍棋上。很多環境都有不同的組織模組，圍棋是一個相對來說比較簡單的邏輯。講到星海爭霸，首先我們必須要從機器學習的角度，去瞭解不同玩家對《星海爭霸》的看法。通過收集玩家的意見就會有更多優勢，比如說如何進行複盤，以及收集整個玩家的社群，怎麼比較看待第一代和第二代《星海爭霸》的版本，同時還有整個遊戲對玩家的影響，都可以進行研究。去年11月份我們在洛杉磯開會，也邀請玩家、相關的代理和一些開發者來共同討論。顧過去幾年，我們基於AlphaGo所做的一些突破性的研究，也主要在深度強化學習這個領域。深度強化學習與監督學習和人類的學習方式相比，還是有一定區別的。比如對於觀察本身，演算法的觀察是需要環境的，沒有充分的觀察，早期的人形機器人在遇到障礙物的時候往往無法順利應對而摔倒。我們就會想，能不能建立一個模擬環境來訓練這些機器人呢？如果我們有一個很好的環境，我們就可以先去訓練它。也就是說我們一定要有一個很完美的環境才能實現我們的目標。為此，我們建立了虛擬場景，並盡可能地提高它的模擬度。也只有在這樣的強化環境下，我們才能取得進一步的進展。比如提到應用場景，我們常常會想到遊戲。人們在設計遊戲的時候總是小心翼翼，以確保玩家可以獲得一定的智慧化體驗。比如AlphaGo參與的圍棋有3000年的歷史，這是一個非常有挑戰性的環境，因為沒有一個單一的解決方案能確保帶來最好的結果。當然，我們也可以整合不同的能力讓它們玩不同的遊戲，比如通過訓練讓機器人學會下國際象棋。我們也有專門下圍棋的演算法，這時目標變得更加複雜，玩法也變得更加複雜。目前沒有一台機器可以通過搜索策略的方法來玩好這個遊戲。那AlphaGo是通過什麼方法來玩這個遊戲的呢？正是強化學習。我們的神經網路可以自動地從資料中學習一些特徵。這樣我們就可以讓它看著棋盤，看人類怎麼走，棋盤上也會顯示出輸贏。也就是說我們不需要展開整個展示走法與輸贏的網路，只要展開一部分網路就可以做出很好的模擬。這是一個很好的突破。但這樣也不是特別好。因為我們在以人的角度去學習，都要使用資料集來訓練。後來我們隨機地運行遊戲，下過一局之後AlphaGo就可以瞭解一下比賽是如何進行的，就可以調整整個網路，最終學會下棋。這些網路是在玩遊戲的過程中不斷訓練提升的。AlphaZero隨機下棋。經過幾天的訓練之後，就學會專業棋手的走法了。所以，我們第一版的AlphaGo擊敗了樊麾，後來下一個版本在韓國和李世石進行了對弈並取得了勝利。再後來我們進一步地訓練網路，整個網路比之前強了三倍，贏了柯潔和其他專業棋手。我們是從零開始，一點點積累積資料訓練，最後戰勝了專業棋手。 http://www.eeo.com.cn/2018/0129/321702.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1517241373.A.0C8.html

推 Adonisy: 很難，戰爭迷霧每開一點就影響大局 01/30 00:32

推 homelife: 這篇好像沒有什麼新的訊息 01/30 02:54

推 nissptt: 隨時間過去，沒重大新的訊息的本身，就是一項訊息。 01/30 05:17

推 abc0922001: 就是文章+1，沒有意義 01/30 08:42

→ kira925: 這篇就把之前寫的東西改寫一次的廢文這種整理早有了 01/30 09:02

推 Adonisy: 只是提醒大家我還在做 01/30 10:28

推 dogee: 能作出來就是在軍事運用上跨一大步了？ 01/30 10:38

推 supereva: 應該真的能運用在軍事喔 skynet要出現了害怕.jpg 01/30 10:45

推 aegis43210: 只要成功，就能用在軍事上啦，能自動搜索，自動辨認開 01/30 16:59

→ aegis43210: 火目標，實在很期待 01/30 16:59

推 ohmylove347: 這篇沒重點啊，都是舊東西 01/30 19:22

→ ThelmaEast: 煩屎惹、是有結論沒 01/30 19:56

推 LUOZISHANG: 刷刷AI 存在提醒大家還在卡關 01/30 21:57

推 homelife: 有關注的人應該這篇裡的東西之前全都讀過 XD 01/30 21:58

→ jackace: 舊聞舊聞還是舊聞 01/31 00:47

推 ilw4e: 能玩遊戲以後無人機就真的靠AI飛就好了XD 01/31 01:10