看板 StarCraft 關於我們 聯絡資訊
擊敗圍棋選手的AlphaGo能否挑戰《星海爭霸》?DeepMind科學家首次詳解 經濟觀察網 記者 沈怡然 以開發AlphaGo征服了圍棋選手李世石和柯潔而馳名世界的Deepmind公司,2014年就被穀 歌以6.6億美元收購。2016年11月,公司曾宣稱將以AI挑戰《星海爭霸》與玩家對抗。 2018年1月28日,DeepMind研究科學家Oriol Vinvals在《麻省理工科技評論》與DeepTech 深科技主辦的新型科技峰會EmTech China上發表了題為《AI對戰星海爭霸勝算幾何?》的 演講,首次面向中國詳細解讀了該專案,並就此與麻省理工科技評論人工智慧領域資深編 輯Will Knight進行了討論。他提出了資料和任務在研究機器學習和人工智慧領域的重要 性;並介紹了基於AlphaGo在深度強化學習方面取得的突破性成就;現在在機器學習如何 戰勝《星海爭霸II》的玩家是科學家們正在研究的話題。以下內容摘自Oriol Vinvals現 場演講。 ——編者按 在我還是伯克利大學學生的時候,就玩過《星海爭霸》。我和很多伯克利分校的同事在 2010年開始做這個研究,當時我們在想的是如何爭霸、如何打敗敵方。 《星海爭霸》是我們應用AI技術的一個出發點。在這個過程中,我們看到了很多挑戰,因 此我們需要很多創新的演算法。需要更多的研究人員參與進來,設計一些新的問題和任務 ,看能否完成。 我們會訓練整個系統,收集整個星海爭霸玩家的行為進行分析。比如哪些走法可能沒有優 勢,哪些玩法過於簡單。現在我們會為玩家提供一些打《星海爭霸》最簡單的走法。 遊戲《星海爭霸II》我們非常感興趣,這是非常有趣和複雜的遊戲,這個遊戲基本上是建 造一些建築物以及單位,在同一個地圖裡不同的組織會相互競爭。在這個遊戲中,哪怕只 是建造建築物,也需要做出許多決策。而除此之外,我們還要不斷收集和利用資源、建造 不同的建築物、不斷擴張,因此整個遊戲非常具有挑戰性。 與下圍棋類似,在《星海爭霸》遊戲中,我們也在使用強化學習。要模仿人類玩這個遊戲 的方式,但即使是模仿人類點擊滑鼠和敲擊鍵盤的行為也非常困難。為此,我們引入了一 個遊戲引擎。 和圍棋任務最大的不同在於,圍棋可以看到整個棋盤,但是在《星海爭霸II》中我們通常 無法看到整個地圖,需要派小兵出去偵查。而且遊戲是不間斷進行的。整個遊戲甚至會有 超過5000步的操作。而且對於增強學習,除了上下左右這些普通的移動,我們發現用滑鼠 點擊介面控制不同物體的移動以及不同的行為,也是非常難的。我們發佈了這個環境,所 有人都可以參與其中。我們也發佈了相關的報導,這基本上是一個開源的平臺,大家可以 測試自己的演算法。 我們還沒有完成過整局遊戲,但是完成了操作《星海爭霸II》比較重要的7個操作,比如 選擇一個單位並讓它移動過去。我們所使用的演算法能做到這一步,而且和人類玩家操作 的效果基本一樣。而另一些任務,比如建造建築、收集資源等,仍然是比較難的。我們測 試的演算法,表現會比隨機的環境要好,但和專業玩家還是有一段距離的。 有學徒式的學習方式。比如說在玩圍棋的時候,有自我的教學模式,從零級開始自學。但 是玩《星海爭霸》的時候,我們不是從零開始,已經是在一定的基礎層上面來進行學習了 。另外很多玩家他們還會考慮到一些網上的附加服務,大家會去觀察別人玩遊戲的方式, 他們怎麼樣去移動滑鼠等。我自己也是個玩家,我也會關注別的玩家動滑鼠的方法、別人 的遊戲行為。這對加強學習是一個新的關注點。比如說我自己玩遊戲的時候,可能我不能 一直獲勝。那麼我還去觀察很多,我輸的時候會在遊戲的末尾觀察哪個人物角色會獲勝, 通過觀察一些專業玩家的行為分析這些遊戲過程中的關鍵點。這也能説明我們進行類比學 習,以及資料監管式的學習。 對於《星海爭霸》,我們做開源,一開始是設計到了圍棋上。很多環境都有不同的組織模 組,圍棋是一個相對來說比較簡單的邏輯。講到星海爭霸,首先我們必須要從機器學習的 角度,去瞭解不同玩家對《星海爭霸》的看法。通過收集玩家的意見就會有更多優勢,比 如說如何進行複盤,以及收集整個玩家的社群,怎麼比較看待第一代和第二代《星海爭霸 》的版本,同時還有整個遊戲對玩家的影響,都可以進行研究。去年11月份我們在洛杉磯 開會,也邀請玩家、相關的代理和一些開發者來共同討論。 顧過去幾年,我們基於AlphaGo所做的一些突破性的研究,也主要在深度強化學習這個領 域。 深度強化學習與監督學習和人類的學習方式相比,還是有一定區別的。比如對於觀察本身 ,演算法的觀察是需要環境的,沒有充分的觀察,早期的人形機器人在遇到障礙物的時候 往往無法順利應對而摔倒。我們就會想,能不能建立一個模擬環境來訓練這些機器人呢? 如果我們有一個很好的環境,我們就可以先去訓練它。也就是說我們一定要有一個很完美 的環境才能實現我們的目標。為此,我們建立了虛擬場景,並盡可能地提高它的模擬度。 也只有在這樣的強化環境下,我們才能取得進一步的進展。比如提到應用場景,我們常常 會想到遊戲。人們在設計遊戲的時候總是小心翼翼,以確保玩家可以獲得一定的智慧化體 驗。比如AlphaGo參與的圍棋有3000年的歷史,這是一個非常有挑戰性的環境,因為沒有 一個單一的解決方案能確保帶來最好的結果。當然,我們也可以整合不同的能力讓它們玩 不同的遊戲,比如通過訓練讓機器人學會下國際象棋。 我們也有專門下圍棋的演算法,這時目標變得更加複雜,玩法也變得更加複雜。目前沒有 一台機器可以通過搜索策略的方法來玩好這個遊戲。 那AlphaGo是通過什麼方法來玩這個遊戲的呢?正是強化學習。我們的神經網路可以自動 地從資料中學習一些特徵。這樣我們就可以讓它看著棋盤,看人類怎麼走,棋盤上也會顯 示出輸贏。也就是說我們不需要展開整個展示走法與輸贏的網路,只要展開一部分網路就 可以做出很好的模擬。這是一個很好的突破。 但這樣也不是特別好。因為我們在以人的角度去學習,都要使用資料集來訓練。後來我們 隨機地運行遊戲,下過一局之後AlphaGo就可以瞭解一下比賽是如何進行的,就可以調整 整個網路,最終學會下棋。 這些網路是在玩遊戲的過程中不斷訓練提升的。AlphaZero隨機下棋。經過幾天的訓練之 後,就學會專業棋手的走法了。 所以,我們第一版的AlphaGo擊敗了樊麾,後來下一個版本在韓國和李世石進行了對弈並 取得了勝利。再後來我們進一步地訓練網路,整個網路比之前強了三倍,贏了柯潔和其他 專業棋手。我們是從零開始,一點點積累積資料訓練,最後戰勝了專業棋手。 http://www.eeo.com.cn/2018/0129/321702.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1517241373.A.0C8.html
Adonisy: 很難,戰爭迷霧每開一點就影響大局 01/30 00:32
homelife: 這篇好像沒有什麼新的訊息 01/30 02:54
nissptt: 隨時間過去,沒重大新的訊息的本身,就是一項訊息。 01/30 05:17
abc0922001: 就是文章+1,沒有意義 01/30 08:42
kira925: 這篇就把之前寫的東西改寫一次的廢文 這種整理早有了 01/30 09:02
Adonisy: 只是提醒大家我還在做 01/30 10:28
dogee: 能作出來就是在軍事運用上跨一大步了? 01/30 10:38
supereva: 應該真的能運用在軍事喔 skynet要出現了 害怕.jpg 01/30 10:45
aegis43210: 只要成功,就能用在軍事上啦,能自動搜索,自動辨認開 01/30 16:59
aegis43210: 火目標,實在很期待 01/30 16:59
ohmylove347: 這篇沒重點啊,都是舊東西 01/30 19:22
ThelmaEast: 煩屎惹、是有結論沒 01/30 19:56
LUOZISHANG: 刷刷AI 存在提醒大家還在卡關 01/30 21:57
homelife: 有關注的人應該這篇裡的東西之前全都讀過 XD 01/30 21:58
jackace: 舊聞 舊聞 還是舊聞 01/31 00:47
ilw4e: 能玩遊戲以後無人機就真的靠AI飛就好了XD 01/31 01:10