[新聞] 西班牙星海天才正幫DeepMind擊敗

作者qweewqq (風一樣的男子)

看板StarCraft

標題[新聞] 西班牙星海天才正幫DeepMind擊敗

時間Sun Nov 26 02:26:36 2017

西班牙星海天才正幫DeepMind擊敗人類樊麾翻版？　李杉若樸發自凹非寺量子位出品 | 公眾號 QbitAI 　　1990年代，十幾歲的Oriol Vinyals（維紐斯）成了西班牙《星海爭霸》全國冠軍。　　他之所以玩這款科幻策略遊戲，是因為比其他打打殺殺的遊戲更需要動腦子。維紐斯說：“沒上大學之前，這款遊戲就讓我在生活中懷有更強的戰略思維。” 　　他的戰略思維的確獲得了回報：在巴賽隆納學習了電信工程和數學之後，維紐斯去過微軟研究院實習，獲得了加州大學伯克利的電腦博士學位，接著加入谷歌大腦團隊，開始從事人工智慧開發工作，然後又轉入谷歌旗下DeepMind團隊。　　他又跟“星海爭霸”打起了交道。　　但這一次不是他親自玩，而是教給機器人怎麼玩。在人工智慧成為全球最優秀的圍棋選手後，星海成為了下一個攻克目標。　　DeepMind與《星海爭霸2》的開發商暴雪展開合作，讓人工智慧研究人員可以通過之前的數百萬場對戰進行學習。他們的目標之一，就是開發一套足夠好的人工智慧系統，使之可以擊敗人類選手。就像DeepMind的AlphaGo擊敗李世石、柯潔一樣。　　然而，最終的目標是將其中使用的技術應用到現實世界，而不是讓它始終停留在遊戲裡面。　　“我們正在試圖理解人類以及我們大腦的工作方式。”暴雪首席軟體工程師Jacob Repp說，“如果我們能夠得到這種高品質的資料流程——人類玩遊戲時的原始輸入以及由此產生的結果——那就能成為研究人們行為的有用資料。” 　　對人工智慧研究人員來說，《星海爭霸2》是個頗為有趣的挑戰。　　與國際象棋或圍棋不同，星海玩家面對的是不完美資訊博弈。“戰爭迷霧”意味著玩家的規劃、決策、行動，要一段時間後才能看到結果。　　暴雪已經使用神經網路來獲取玩家技能，而依據則是他們利用鍵盤和滑鼠輸入的資訊、他們排兵佈陣的方法、他們玩遊戲時的效率。這些信號都可以用來讓遊戲本身更加有趣，或者讓對戰雙方更加均衡。　　但要讓人工智慧玩《星海爭霸2》，就必須讓他們能“看到”遊戲裡的3D地圖，並快速而準確地加以解讀。　　DeepMind的首次測試，先在雅達利遊戲上訓練神經網路和AI智慧體（Agent），然後再將其應用到《星海爭霸2》上。即便沒有進一步的指令，用雅達利遊戲訓練的人工智慧也可以在地圖上隨意走動、移動鏡頭、排兵佈陣。　　“這的確可以在一定程度上發揮作用”，Viyals說。　　在加入DeepMind之前，維紐斯開發了一項圖片搜索功能和Gmail的“智慧回復”，後者可以根據郵件內容推薦相關的回復。該團隊還在從事語音辨識，讓人工智慧記住不同人的對話，從而在下次聽到這個聲音時識別出來。　　“在《星海爭霸2》裡，也要應對這些問題。”維紐斯說。一個玩家可能看到對手的偵察兵，然後又消失在視野中。對人工智慧來說，記住他們遇到的東西，並且理解這可能表明敵人正在某個地方修建基地，就需要使用LSTM神經網路。　　維紐斯解釋道，電腦可以把某個資料的記憶保留數十年的時間，但這種記憶不僅需要保存，還要在未來針對某個資訊調取出來。　　“在《星海爭霸2》中，這非常重要，但卻很微妙，可以將未來與過去聯繫起來。” 他說，“很難建立因果關係，因為遊戲中會發生很多事情。” 　　儘管自己也是星海玩家，但維紐斯表示，DeepMind的研究並沒有使用之前的技術作為假設。　　借助所謂的強化學習技術，神經網路可以直接解讀他們獲取的原始信號——在這個案例中，就是《星海爭霸》過往的對戰錄影。　　SC2LE 　　今年8月，DeepMind和暴雪聯合發佈了第一篇AI打星海的論文：《StarCraft II： A New Challenge for Reinforcement Learning》。　　這篇論文的第一作者，就是維紐斯。　　論文介紹了暴雪和DeepMind合作推出的SC2LE工具包，其中包括：機器學習API：由暴雪開發，將研究人員和開發人員接入遊戲，並自帶首次發佈的 Linux工具包。至此，Windows、Mac與Linux系統均可在雲端運行。匿名遊戲重播資料集：包含65000多場遊戲記錄，在接下來的幾周將增加至50萬場，幫助實現智慧體間的離線比賽。開源的DeepMindPySC2工具包：方便研究人員使用暴雪的特徵層API訓練智慧體。一系列簡單的增強學習迷你遊戲：幫助研究人員在特定任務上測試智慧體的性能。概述開發環境的論文：記錄了迷你遊戲的初始基線結果、監督學習資料以及智慧體間完整的對抗記錄。　　DeepMind希望通過此舉，推動更多研究社區和開放工具的開發。　　圍棋AI“帶路黨” 　　維紐斯的故事，讓量子位想起他的同事：黃士傑、樊麾。　　黃士傑和樊麾都是從小就對圍棋產生了濃厚的興趣。2003年，黃士傑從臺灣師範大學畢業獲得碩士學位，畢業論文：《電腦圍棋打劫的策略》。　　一年後，黃士傑開始攻讀博士學位。2007年，黃士傑成為臺灣師範大學圍棋社首任社長，並帶領同學征戰臺灣大專杯圍棋賽。　　黃士傑的棋力是業餘六段。　　除了在現實世界下圍棋，黃士傑還一直在研究圍棋程式。2006年，黃士傑獨自開發的第一款圍棋程式AjaGo，獲得圍棋大賽第11名；他參與的中國象棋程式Elephant（大象），獲得大賽的銅牌。　　2010年，黃士傑在Rémi Coulom的指導下，開發出圍棋程式Erica，並在圍棋比賽中擊敗日本的Zen，獲得當年的冠軍。這在當時可算了不起的成就。Rémi Coulom是另一個圍棋程式Crazy Stone的作者。　　2012年，黃士傑加入DeepMind。然後開始AlphaGo的研發。　　2015年，黃士傑與樊麾相遇。當年10月，樊麾受邀前往倫敦與尚不為人所知的 AlphaGo展開對戰。結果五戰全敗，輸的樊麾一度懷疑人生。　　樊麾是從小學棋的職業選手，曾經入選國少隊，但後來自知與國內頂尖高手實力有差距，所以少年時選擇遠走歐洲，成為歐洲圍棋冠軍，法國圍棋隊總教練。　　敗給AlphaGo後，樊麾也加入了DeepMind，和黃士傑一樣，成為圍棋AI的“帶路黨” 。後來的故事大家就熟知了，AlphaGo一路過關斬將，站在圍棋之巔。　　當然星海AI的研究，還在非常早期的階段。最近在首爾的一場競賽中，《星海爭霸》職業玩家宋炳具用了不到半小時就輕易擊敗了4個人工智慧機器人。但他也承認，它們的防守打法“有時候讓人震驚”。　　雖然過去20年維紐斯玩《星海爭霸》機會並不多，但這位前西班牙冠軍卻對自己的《星海爭霸》技術滿懷信心。　　“人工智慧現在能打敗我嗎？我覺得還不能”，維紐斯笑道。　　— 完 — http://sports.sina.com.cn/go/2017-11-25/doc-ifypathz5837042.shtml -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.93.166 ※ 文章網址: https://www.ptt.cc/bbs/StarCraft/M.1511634399.A.148.html

推 NinaMoon: 蠻期待接下來的發展的 11/26 03:05

推 skliveman: 西班牙冠軍放到韓國也是隻雞 11/26 07:09

推 lather: 自己玩好玩就毀滅他的概念 11/26 08:23

推 ohmylove347: 一個高材生星海剛好超猛的概念 11/26 08:30

推 dr45jfga: 我怎麼覺得那個長年第四更強？ 11/26 11:10

推 henry1915: 猛 11/26 11:14

推 JubeChocobo: 西班牙冠軍是個怎樣的概念呢... 11/26 12:06

推 wtao: 這樣本末倒置吧 11/26 13:15

推 ckuser: 幹嘛不找教主去直接學如何內建開圖反正google有錢 11/26 14:04

→ TheDragonBug: 大概就是一半的Grrrr吧 11/26 20:56

推 killer922: 教主去會不會虐到他們不想玩了XD 11/27 09:33

推 Benbenyale: 谷溝大腦團隊都找天才啊 11/28 06:46

推 h311013: 先說他積分有沒有上6000 11/28 14:39